本站教程更新计划

四大模块、29 个章节的系统化更新路线

写在前面

感谢大家对 AIInfraGuide 的关注和支持！作者白天需要上班，只能利用晚上和周末的业余时间来编写和更新教程内容。因此更新节奏可能不会特别快，但我会尽量保证每篇文章的质量和深度。

如果你觉得这个项目对你有帮助，希望能给个 Star 鼓励一下，也欢迎分享给身边对 AI Infra 感兴趣的朋友。你们的支持是我持续更新的最大动力！

有任何建议或想看的内容，欢迎通过 GitHub Issue 或者 公众号留言 告诉我。

获取最新更新

作者新产出的文章都会第一时间在知乎和公众号《AI Infra Guide》发布，之后才会同步更新到 GitHub 和本站。想第一时间了解最新内容，推荐关注知乎或公众号。

更新计划总览

本站教程共分为 4 个模块，覆盖从前置基础到推理优化的完整 AI Infra 技术栈。以下是各模块的章节规划和更新安排：

模块一：前置知识

6 章

1 第1章编程语言基础
2 第2章数学基础
3 第3章 Transformer 架构详解
4 第4章 PyTorch 框架
5 第5章 GPU 硬件概论
6 第6章集合通信基础

模块二：CUDA 编程与算子优化

8 章

1 第1章 CUDA 编程入门
2 第2章 CUDA 性能优化基础
3 第3章经典算子实现 - Reduce
4 第4章经典算子实现 - GEMM
5 第5章经典算子实现 - Softmax 与算子融合
6 第6章 Attention 算子
7 第7章 AI 编译器
8 第8章性能分析工具链

模块三：分布式训练

7 章

1 第1章分布式训练总论
2 第2章数据并行
3 第3章 ZeRO 系列
4 第4章张量并行与序列并行
5 第5章流水线并行
6 第6章 3D 并行与混合训练策略
7 第7章训练框架实战

模块四：推理优化

8 章

1 第1章 LLM 推理基础
2 第2章推理引擎核心技术
3 第3章主流推理框架
4 第4章量化
5 第5章 Speculative Decoding
6 第6章 PD 解耦架构
7 第7章性能分析与 Benchmark
8 第8章推理优化选型与端到端实战

更新节奏

更新频率：预计每周 1-2 篇，视内容深度和工作强度调整
更新顺序：按模块顺序推进，优先完成前置知识和 CUDA 编程模块
内容质量：每篇文章遵循「先白话后术语」的原则，配合代码示例和图解
反馈驱动：如果某个章节呼声较高，会考虑优先更新

草帽路飞介绍