⚡ CUDA编程与算子优化 9 篇文章 · 8 个章节
模块二:CUDA 编程与算子优化
从 CUDA 编程入门到经典算子实现(Reduce、GEMM、Softmax、Attention),再到 AI 编译器和性能分析工具链,系统掌握 GPU 编程与算子优化技术。
开始学习章节目录
搭建 CUDA 开发环境,理解 Grid/Block/Thread 编程模型和内存模型,编写第一个实用 CUDA Kernel
掌握 Warp 执行模型、内存访问优化、Occupancy 调优和同步机制,建立 CUDA 性能优化的核心方法论
通过 Reduce 算子的三个优化版本(朴素实现、共享内存树形归约、Warp Shuffle),掌握 CUDA 算子逐步优化的方法论
从朴素矩阵乘法到 Shared Memory Tiling、寄存器 Tiling、Tensor Core,逐步逼近 cuBLAS 性能
实现数值稳定的 Softmax 和 Online Softmax,掌握算子融合的原理与实践
深入理解 FlashAttention V1/V2/V3 的原理与实现,以及 Decode 阶段的 Flash-Decoding 和 PagedAttention CUDA 实现
掌握 Triton Block-level 编程模型、torch.compile 编译模式,以及 TVM/XLA 的定位与差异
掌握 Nsight Systems、Nsight Compute 和 PyTorch Profiler 三大性能分析工具,建立系统化的性能诊断能力
学习建议
前置要求
前置知识模块(尤其是第5章 GPU 硬件概论)
- 建议先完成前置知识模块中的 GPU 硬件概论
- 每个算子实现章节都有配套代码,建议动手实践
- 性能分析工具链是贯穿整个模块的重要工具,建议尽早熟悉