Optimize M2L a bit

isuruf · inducer · commit effa57decd61 · 2023-05-29T08:20:36.000-05:00
gives a 40% performance boost in CUDA
diff --git a/sumpy/expansion/m2l.py b/sumpy/expansion/m2l.py
@@ -795,8 +795,8 @@ def optimize_loopy_kernel(self, knl, tgt_expansion, src_expansion):
         knl = lp.unprivatize_temporaries_with_inames(knl,
                 {"icoeff_tgt"}, {"tgt_expansion"})
 
-        knl = lp.split_iname(knl, "icoeff_tgt", 32, inner_iname="inner",
-                inner_tag="l.0")
+        knl = lp.split_iname(knl, "icoeff_tgt", 64, inner_iname="inner",
+                inner_tag="l.0", outer_tag="g.1")
         knl = lp.tag_inames(knl, {"itgt_box": "g.0"})
         return knl