本项目展示了多个并行前缀和(Prefix Sum / Scan)算法的 CUDA 实现与性能对比,包括:
- Kogge-Stone
- Double-Buffer
- Brent-Kung
- Segmented Scan
| 算法名称 | 并行性 | 控制分歧 | 特点与优势 |
|---|---|---|---|
| Kogge-Stone | 高 | 少 | warp 内通信效率高,适合并行传播 |
| Double Buffer | 中等 | 少 | 利用两个共享缓冲区解决依赖问题 |
| Brent-Kung | 中等 | 极少 | 结构对称,延迟低,需偏移补偿 |
| Segmented Scan | 高(粗粒度) | 少 | 每线程处理多个元素,提升内存带宽利用 |