跳到主要内容

本站教程更新计划

四大模块、29 个章节的系统化更新路线

写在前面

感谢大家对 AIInfraGuide 的关注和支持!作者白天需要上班,只能利用晚上和周末的业余时间来编写和更新教程内容。因此更新节奏可能不会特别快,但我会尽量保证每篇文章的质量和深度。

如果你觉得这个项目对你有帮助,希望能给个 Star 鼓励一下,也欢迎分享给身边对 AI Infra 感兴趣的朋友。你们的支持是我持续更新的最大动力!

有任何建议或想看的内容,欢迎通过 GitHub Issue 或者 公众号留言 告诉我。

获取最新更新

作者新产出的文章都会第一时间在 知乎公众号《AI炼金炉》 发布,之后才会同步更新到 GitHub 和本站。想第一时间了解最新内容,推荐关注知乎或公众号。

更新计划总览

本站教程共分为 4 个模块,覆盖从前置基础到推理优化的完整 AI Infra 技术栈。以下是各模块的章节规划和更新安排:

模块一:前置知识

6 章
  • 1 第1章 编程语言基础
  • 2 第2章 数学基础
  • 3 第3章 Transformer 架构详解
  • 4 第4章 PyTorch 框架
  • 5 第5章 GPU 硬件概论
  • 6 第6章 集合通信基础

模块二:CUDA 编程与算子优化

8 章
  • 1 第1章 CUDA 编程入门
  • 2 第2章 CUDA 性能优化基础
  • 3 第3章 经典算子实现 - Reduce
  • 4 第4章 经典算子实现 - GEMM
  • 5 第5章 经典算子实现 - Softmax 与算子融合
  • 6 第6章 Attention 算子
  • 7 第7章 AI 编译器
  • 8 第8章 性能分析工具链

模块三:分布式训练

7 章
  • 1 第1章 分布式训练总论
  • 2 第2章 数据并行
  • 3 第3章 ZeRO 系列
  • 4 第4章 张量并行与序列并行
  • 5 第5章 流水线并行
  • 6 第6章 3D 并行与混合训练策略
  • 7 第7章 训练框架实战

模块四:推理优化

8 章
  • 1 第1章 LLM 推理基础
  • 2 第2章 推理引擎核心技术
  • 3 第3章 主流推理框架
  • 4 第4章 量化
  • 5 第5章 Speculative Decoding
  • 6 第6章 PD 解耦架构
  • 7 第7章 性能分析与 Benchmark
  • 8 第8章 推理优化选型与端到端实战

更新节奏

  • 更新频率:预计每周 1-2 篇,视内容深度和工作强度调整
  • 更新顺序:按模块顺序推进,优先完成前置知识和 CUDA 编程模块
  • 内容质量:每篇文章遵循「先白话后术语」的原则,配合代码示例和图解
  • 反馈驱动:如果某个章节呼声较高,会考虑优先更新