support group_gemm_offset, group_gemm_offset_swapAB #116

Wangzheee · 2025-06-19T15:14:48Z

support group gemm offset type: group_gemm_offset, and group_gemm_offset_swapAB

Performance:
- Remove random: group_ms = [int(expected_m_per_group * random.uniform(1, 1)) for _ in range(num_groups)]:
- m<64 about 30%~50% kernel speedup
  - Testing grouped masked GEMM:
    Perf (num_groups=2, expected_m_per_group= 16, n=4096, k=7168): 36 us | throughput: 53 TFLOPS, 1665 GB/s
    Perf (num_groups=4, expected_m_per_group= 16, n=4096, k=7168): 65 us | throughput: 58 TFLOPS, 1813 GB/s
    Perf (num_groups=2, expected_m_per_group= 32, n=4096, k=7168): 35 us | throughput: 106 TFLOPS, 1685 GB/s
    Perf (num_groups=9, expected_m_per_group= 32, n=4096, k=7168): 141 us | throughput: 120 TFLOPS, 1900 GB/s
    Perf (num_groups=2, expected_m_per_group= 32, n=4096, k=7168): 35 us | throughput: 106 TFLOPS, 1689 GB/s
    Perf (num_groups=4, expected_m_per_group= 32, n=4096, k=7168): 66 us | throughput: 115 TFLOPS, 1822 GB/s
    Perf (num_groups=32, expected_m_per_group= 64, n=4096, k=7168): 485 us | throughput: 248 TFLOPS, 2002 GB/s
  - Testing grouped offset GEMM:
    Perf (num_groups= 2, expected_m_per_group= 16, n=4096, k=7168): 27 us | throughput: 71 TFLOPS, 2226 GB/s
    Perf (num_groups= 4, expected_m_per_group= 16, n=4096, k=7168): 46 us | throughput: 82 TFLOPS, 2587 GB/s
    Perf (num_groups= 2, expected_m_per_group= 32, n=4096, k=7168): 28 us | throughput: 134 TFLOPS, 2136 GB/s
    Perf (num_groups= 9, expected_m_per_group= 32, n=4096, k=7168): 93 us | throughput: 183 TFLOPS, 2902 GB/s
    Perf (num_groups= 2, expected_m_per_group= 32, n=4096, k=7168): 28 us | throughput: 135 TFLOPS, 2143 GB/s
    Perf (num_groups= 4, expected_m_per_group= 32, n=4096, k=7168): 49 us | throughput: 152 TFLOPS, 2414 GB/s
    Perf (num_groups=32, expected_m_per_group= 64, n=4096, k=7168): 479 us | throughput: 251 TFLOPS, 2029 GB/s

LyricZhao · 2025-06-23T01:33:26Z

Thanks for your contribution! We will merge it after the refactor #112.

Wangzheee · 2025-06-24T14:09:33Z

Thanks for your contribution! We will merge it after the refactor #112.

Thank you for your reply.
We are still working on W4Afp8 for NormalGEMM and GroupedGEMM. Does DeepGEMM have any plans to develop project W4Afp8?

Wangzheee added 2 commits June 19, 2025 14:51

support group_gemm_offset, group_gemm_offset_swapAB

d29b20c

fix some bug

26a603f

LyricZhao mentioned this pull request Jun 23, 2025

Will swap ab tech improve small m (decode phase) performance? #114

Open

wangzhe_ant added 3 commits June 24, 2025 17:52

fix tma_d_offset_desc_swapAB, update unitest

ccd63bb

update unitest

7db1b0e

update unitest

e29e996

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

support group_gemm_offset, group_gemm_offset_swapAB #116

support group_gemm_offset, group_gemm_offset_swapAB #116

Wangzheee commented Jun 19, 2025 •

edited

Loading

Uh oh!

LyricZhao commented Jun 23, 2025

Uh oh!

Wangzheee commented Jun 24, 2025

Uh oh!

Uh oh!

support group_gemm_offset, group_gemm_offset_swapAB #116

Are you sure you want to change the base?

support group_gemm_offset, group_gemm_offset_swapAB #116

Conversation

Wangzheee commented Jun 19, 2025 • edited Loading Uh oh! There was an error while loading. Please reload this page.

Uh oh!

Uh oh!

LyricZhao commented Jun 23, 2025

Uh oh!

Wangzheee commented Jun 24, 2025

Uh oh!

Uh oh!

Wangzheee commented Jun 19, 2025 •

edited

Loading