跳到主要内容
⚡ CUDA编程与算子优化 9 篇文章 · 8 个章节

模块二:CUDA 编程与算子优化

从 CUDA 编程入门到经典算子实现(Reduce、GEMM、Softmax、Attention),再到 AI 编译器和性能分析工具链,系统掌握 GPU 编程与算子优化技术。

开始学习

章节目录

搭建 CUDA 开发环境,理解 Grid/Block/Thread 编程模型和内存模型,编写第一个实用 CUDA Kernel
掌握 Warp 执行模型、内存访问优化、Occupancy 调优和同步机制,建立 CUDA 性能优化的核心方法论
通过 Reduce 算子的三个优化版本(朴素实现、共享内存树形归约、Warp Shuffle),掌握 CUDA 算子逐步优化的方法论
从朴素矩阵乘法到 Shared Memory Tiling、寄存器 Tiling、Tensor Core,逐步逼近 cuBLAS 性能
实现数值稳定的 Softmax 和 Online Softmax,掌握算子融合的原理与实践
深入理解 FlashAttention V1/V2/V3 的原理与实现,以及 Decode 阶段的 Flash-Decoding 和 PagedAttention CUDA 实现
掌握 Triton Block-level 编程模型、torch.compile 编译模式,以及 TVM/XLA 的定位与差异
掌握 Nsight Systems、Nsight Compute 和 PyTorch Profiler 三大性能分析工具,建立系统化的性能诊断能力

学习建议

前置要求

前置知识模块(尤其是第5章 GPU 硬件概论)

  • 建议先完成前置知识模块中的 GPU 硬件概论
  • 每个算子实现章节都有配套代码,建议动手实践
  • 性能分析工具链是贯穿整个模块的重要工具,建议尽早熟悉