⚡ CUDA编程与算子优化 19 篇文章 · 8 个章节

模块二：CUDA 编程与算子优化

从 CUDA 编程入门到经典算子实现（Reduce、GEMM、Softmax、Attention），再到 AI 编译器和性能分析工具链，系统掌握 GPU 编程与算子优化技术。

章节目录

搭建 CUDA 开发环境，理解 Grid/Block/Thread 编程模型和内存模型，编写第一个实用 CUDA Kernel

掌握 Warp 执行模型、内存访问优化、Occupancy 调优和同步机制，建立 CUDA 性能优化的核心方法论

通过 Reduce 算子的三个优化版本（朴素实现、共享内存树形归约、Warp Shuffle），掌握 CUDA 算子逐步优化的方法论

从朴素矩阵乘法到 Block-Warp-Thread三级Tiling优化、向量化访存、Bank Conflict 消除、双缓冲等优化手段，带你系统掌握 CUDA GEMM 优化的完整方法论

实现数值稳定的 Softmax 和 Online Softmax，掌握算子融合的原理与实践

深入理解 FlashAttention V1/V2/V3 的原理与实现，以及 Decode 阶段的 Flash-Decoding 和 PagedAttention CUDA 实现

掌握 Triton Block-level 编程模型、torch.compile 编译模式，以及 TVM/XLA 的定位与差异

掌握 Nsight Systems、Nsight Compute 和 PyTorch Profiler 三大性能分析工具，建立系统化的性能诊断能力

前置知识模块（尤其是第5章 GPU 硬件概论）