llnl · artv3 · Jan 12, 2026 · Dec 26, 2025 · Dec 26, 2025 · Dec 26, 2025
diff --git a/src/CMakeLists.txt b/src/CMakeLists.txt
@@ -76,6 +76,8 @@ blt_add_executable(
   apps/MASS3DEA-Seq.cpp
   apps/MASS3DPA.cpp
   apps/MASS3DPA-Seq.cpp
+  apps/MASS3DPA_ATOMIC.cpp
+  apps/MASS3DPA_ATOMIC-Seq.cpp  
   apps/MASSVEC3DPA.cpp
   apps/MASSVEC3DPA-Seq.cpp
   apps/MATVEC_3D_STENCIL.cpp

diff --git a/src/apps/CMakeLists.txt b/src/apps/CMakeLists.txt
@@ -90,6 +90,12 @@ blt_add_library(
           MASS3DPA-Seq.cpp
           MASS3DPA-OMP.cpp
           MASS3DPA-Sycl.cpp
+          MASS3DPA_ATOMIC.cpp
+          MASS3DPA_ATOMIC-Cuda.cpp
+          MASS3DPA_ATOMIC-Hip.cpp
+          MASS3DPA_ATOMIC-Seq.cpp
+          MASS3DPA_ATOMIC-OMP.cpp
+          MASS3DPA_ATOMIC-Sycl.cpp          
           MASSVEC3DPA.cpp
           MASSVEC3DPA-Cuda.cpp
           MASSVEC3DPA-Hip.cpp

diff --git a/src/apps/CONVECTION3DPA-Cuda.cpp b/src/apps/CONVECTION3DPA-Cuda.cpp
@@ -20,7 +20,7 @@ namespace rajaperf {
 namespace apps {
 
 template < size_t block_size >
-  __launch_bounds__(block_size)
+__launch_bounds__(block_size)
 __global__ void Convection3DPA(const Real_ptr Basis, const Real_ptr tBasis,
                                const Real_ptr dBasis, const Real_ptr D,
                                const Real_ptr X, Real_ptr Y) {
@@ -29,95 +29,95 @@ __global__ void Convection3DPA(const Real_ptr Basis, const Real_ptr tBasis,
 
   CONVECTION3DPA_0_GPU;
 
-  GPU_FOREACH_THREAD(dz,z,CPA_D1D)
+  GPU_FOREACH_THREAD(dz,z,conv::D1D)
   {
-    GPU_FOREACH_THREAD(dy,y,CPA_D1D)
+    GPU_FOREACH_THREAD(dy,y,conv::D1D)
     {
-      GPU_FOREACH_THREAD(dx,x,CPA_D1D)
+      GPU_FOREACH_THREAD(dx,x,conv::D1D)
       {
         CONVECTION3DPA_1;
       }
     }
   }
   __syncthreads();
 
-  GPU_FOREACH_THREAD(dz,z,CPA_D1D)
+  GPU_FOREACH_THREAD(dz,z,conv::D1D)
   {
-    GPU_FOREACH_THREAD(dy,y,CPA_D1D)
+    GPU_FOREACH_THREAD(dy,y,conv::D1D)
     {
-      GPU_FOREACH_THREAD(qx,x,CPA_Q1D)
+      GPU_FOREACH_THREAD(qx,x,conv::Q1D)
       {
         CONVECTION3DPA_2;
       }
     }
   }
   __syncthreads();
 
-  GPU_FOREACH_THREAD(dz,z,CPA_D1D)
+  GPU_FOREACH_THREAD(dz,z,conv::D1D)
   {
-    GPU_FOREACH_THREAD(qx,x,CPA_Q1D)
+    GPU_FOREACH_THREAD(qx,x,conv::Q1D)
     {
-      GPU_FOREACH_THREAD(qy,y,CPA_Q1D)
+      GPU_FOREACH_THREAD(qy,y,conv::Q1D)
       {
         CONVECTION3DPA_3;
       }
     }
   }
   __syncthreads();
 
-  GPU_FOREACH_THREAD(qx,x,CPA_Q1D)
+  GPU_FOREACH_THREAD(qx,x,conv::Q1D)
   {
-    GPU_FOREACH_THREAD(qy,y,CPA_Q1D)
+    GPU_FOREACH_THREAD(qy,y,conv::Q1D)
     {
-      GPU_FOREACH_THREAD(qz,z,CPA_Q1D)
+      GPU_FOREACH_THREAD(qz,z,conv::Q1D)
       {
         CONVECTION3DPA_4;
       }
     }
   }
   __syncthreads();
 
-  GPU_FOREACH_THREAD(qz,z,CPA_Q1D)
+  GPU_FOREACH_THREAD(qz,z,conv::Q1D)
   {
-    GPU_FOREACH_THREAD(qy,y,CPA_Q1D)
+    GPU_FOREACH_THREAD(qy,y,conv::Q1D)
     {
-      GPU_FOREACH_THREAD(qx,x,CPA_Q1D)
+      GPU_FOREACH_THREAD(qx,x,conv::Q1D)
       {
         CONVECTION3DPA_5;
       }
     }
   }
   __syncthreads();
 
-  GPU_FOREACH_THREAD(qx,x,CPA_Q1D)
+  GPU_FOREACH_THREAD(qx,x,conv::Q1D)
   {
-    GPU_FOREACH_THREAD(qy,y,CPA_Q1D)
+    GPU_FOREACH_THREAD(qy,y,conv::Q1D)
     {
-      GPU_FOREACH_THREAD(dz,z,CPA_D1D)
+      GPU_FOREACH_THREAD(dz,z,conv::D1D)
       {
         CONVECTION3DPA_6;
       }
     }
   }
   __syncthreads();
 
-  GPU_FOREACH_THREAD(dz,z,CPA_D1D)
+  GPU_FOREACH_THREAD(dz,z,conv::D1D)
   {
-    GPU_FOREACH_THREAD(qx,x,CPA_Q1D)
+    GPU_FOREACH_THREAD(qx,x,conv::Q1D)
     {
-      GPU_FOREACH_THREAD(dy,y,CPA_D1D)
+      GPU_FOREACH_THREAD(dy,y,conv::D1D)
       {
         CONVECTION3DPA_7;
       }
     }
   }
   __syncthreads();
 
-  GPU_FOREACH_THREAD(dz,z,CPA_D1D)
+  GPU_FOREACH_THREAD(dz,z,conv::D1D)
   {
-    GPU_FOREACH_THREAD(dy,y,CPA_D1D)
+    GPU_FOREACH_THREAD(dy,y,conv::D1D)
     {
-      GPU_FOREACH_THREAD(dx,x,CPA_D1D)
+      GPU_FOREACH_THREAD(dx,x,conv::D1D)
       {
         CONVECTION3DPA_8;
       }
@@ -144,7 +144,7 @@ void CONVECTION3DPA::runCudaVariantImpl(VariantID vid) {
     // Loop counter increment uses macro to quiet C++20 compiler warning
     for (RepIndex_type irep = 0; irep < run_reps; RP_REPCOUNTINC(irep)) {
 
-      dim3 nthreads_per_block(CPA_Q1D, CPA_Q1D, CPA_Q1D);
+      dim3 nthreads_per_block(conv::Q1D, conv::Q1D, conv::Q1D);
       constexpr size_t shmem = 0;
 
       RPlaunchCudaKernel( (Convection3DPA<block_size>),
@@ -162,39 +162,40 @@ void CONVECTION3DPA::runCudaVariantImpl(VariantID vid) {
     constexpr bool async = true;
 
     using launch_policy =
-        RAJA::LaunchPolicy<RAJA::cuda_launch_t<async, CPA_Q1D*CPA_Q1D*CPA_Q1D>>;
+        RAJA::LaunchPolicy<RAJA::cuda_launch_t<async, conv::Q1D*conv::Q1D*conv::Q1D>>;
 
     using outer_x =
         RAJA::LoopPolicy<RAJA::cuda_block_x_direct>;
 
     using inner_x =
-        RAJA::LoopPolicy<RAJA::cuda_thread_size_x_loop<CPA_Q1D>>;
+        RAJA::LoopPolicy<RAJA::cuda_thread_size_x_loop<conv::Q1D>>;
 
     using inner_y =
-        RAJA::LoopPolicy<RAJA::cuda_thread_size_y_loop<CPA_Q1D>>;
+        RAJA::LoopPolicy<RAJA::cuda_thread_size_y_loop<conv::Q1D>>;
 
     using inner_z =
-        RAJA::LoopPolicy<RAJA::cuda_thread_size_z_loop<CPA_Q1D>>;
+        RAJA::LoopPolicy<RAJA::cuda_thread_size_z_loop<conv::Q1D>>;
 
     startTimer();
     // Loop counter increment uses macro to quiet C++20 compiler warning
     for (RepIndex_type irep = 0; irep < run_reps; RP_REPCOUNTINC(irep)) {
 
+      //clang-format off
       RAJA::launch<launch_policy>( res,
           RAJA::LaunchParams(RAJA::Teams(NE),
-                           RAJA::Threads(CPA_Q1D, CPA_Q1D, CPA_Q1D)),
+                           RAJA::Threads(conv::Q1D, conv::Q1D, conv::Q1D)),
           [=] RAJA_HOST_DEVICE(RAJA::LaunchContext ctx) {
 
           RAJA::loop<outer_x>(ctx, RAJA::RangeSegment(0, NE),
             [&](Index_type e) {
 
              CONVECTION3DPA_0_GPU;
 
-              RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, CPA_D1D),
+              RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, conv::D1D),
                 [&](Index_type dz) {
-                  RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, CPA_D1D),
+                  RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, conv::D1D),
                     [&](Index_type dy) {
-                      RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, CPA_D1D),
+                      RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, conv::D1D),
                         [&](Index_type dx) {
 
                           CONVECTION3DPA_1;
@@ -208,11 +209,11 @@ void CONVECTION3DPA::runCudaVariantImpl(VariantID vid) {
 
               ctx.teamSync();
 
-              RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, CPA_D1D),
+              RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, conv::D1D),
                 [&](Index_type dz) {
-                  RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, CPA_D1D),
+                  RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, conv::D1D),
                     [&](Index_type dy) {
-                      RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, CPA_Q1D),
+                      RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, conv::Q1D),
                         [&](Index_type qx) {
 
                           CONVECTION3DPA_2;
@@ -226,11 +227,11 @@ void CONVECTION3DPA::runCudaVariantImpl(VariantID vid) {
 
              ctx.teamSync();
 
-              RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, CPA_D1D),
+              RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, conv::D1D),
                 [&](Index_type dz) {
-                  RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, CPA_Q1D),
+                  RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, conv::Q1D),
                     [&](Index_type qx) {
-                      RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, CPA_Q1D),
+                      RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, conv::Q1D),
                         [&](Index_type qy) {
 
                           CONVECTION3DPA_3;
@@ -244,11 +245,11 @@ void CONVECTION3DPA::runCudaVariantImpl(VariantID vid) {
 
              ctx.teamSync();
 
-              RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, CPA_Q1D),
+              RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, conv::Q1D),
                 [&](Index_type qx) {
-                  RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, CPA_Q1D),
+                  RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, conv::Q1D),
                     [&](Index_type qy) {
-                      RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, CPA_Q1D),
+                      RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, conv::Q1D),
                         [&](Index_type qz) {
 
                           CONVECTION3DPA_4;
@@ -262,11 +263,11 @@ void CONVECTION3DPA::runCudaVariantImpl(VariantID vid) {
 
              ctx.teamSync();
 
-              RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, CPA_Q1D),
+              RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, conv::Q1D),
                 [&](Index_type qz) {
-                  RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, CPA_Q1D),
+                  RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, conv::Q1D),
                     [&](Index_type qy) {
-                      RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, CPA_Q1D),
+                      RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, conv::Q1D),
                         [&](Index_type qx) {
 
                           CONVECTION3DPA_5;
@@ -280,11 +281,11 @@ void CONVECTION3DPA::runCudaVariantImpl(VariantID vid) {
 
              ctx.teamSync();
 
-              RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, CPA_Q1D),
+              RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, conv::Q1D),
                 [&](Index_type qx) {
-                  RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, CPA_Q1D),
+                  RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, conv::Q1D),
                     [&](Index_type qy) {
-                      RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, CPA_D1D),
+                      RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, conv::D1D),
                         [&](Index_type dz) {
 
                           CONVECTION3DPA_6;
@@ -298,11 +299,11 @@ void CONVECTION3DPA::runCudaVariantImpl(VariantID vid) {
 
              ctx.teamSync();
 
-              RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, CPA_D1D),
+              RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, conv::D1D),
                 [&](Index_type dz) {
-                  RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, CPA_Q1D),
+                  RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, conv::Q1D),
                     [&](Index_type qx) {
-                      RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, CPA_D1D),
+                      RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, conv::D1D),
                         [&](Index_type dy) {
 
                           CONVECTION3DPA_7;
@@ -316,11 +317,11 @@ void CONVECTION3DPA::runCudaVariantImpl(VariantID vid) {
 
             ctx.teamSync();
 
-              RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, CPA_D1D),
+              RAJA::loop<inner_z>(ctx, RAJA::RangeSegment(0, conv::D1D),
                 [&](Index_type dz) {
-                  RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, CPA_D1D),
+                  RAJA::loop<inner_y>(ctx, RAJA::RangeSegment(0, conv::D1D),
                     [&](Index_type dy) {
-                      RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, CPA_D1D),
+                      RAJA::loop<inner_x>(ctx, RAJA::RangeSegment(0, conv::D1D),
                         [&](Index_type dx) {
 
                           CONVECTION3DPA_8;
@@ -337,6 +338,7 @@ void CONVECTION3DPA::runCudaVariantImpl(VariantID vid) {
 
         }  // outer lambda (ctx)
       );  // RAJA::launch
+      //clang-format on
 
     } // loop over kernel reps
     stopTimer();