📚 AIInfra前置基础 20 篇文章 · 6 个章节

模块一：前置知识

涵盖 GPU 架构、编程语言基础、数学基础、Transformer 架构、PyTorch 框架和集合通信等核心前置知识，为后续深入 AI Infra 打好坚实基础。

章节目录

掌握 AI Infra 开发所需的 Python 进阶、C/C++ 核心和 Linux 开发环境，为后续 CUDA 编程和系统开发打下坚实基础

建立 AI Infra 所需的线性代数、概率论和微积分直觉，理解 GEMM tiling、Softmax、反向传播和混合精度训练背后的数学原理

深入理解 Transformer 的每一个组件：Self-Attention、FFN、位置编码、归一化层，以及从 MHA 到 GQA/MLA、从 FFN 到 MoE 的架构演进

掌握 PyTorch 的 Tensor、自动微分、Module 训练流程和调试工具，并从零实现一个 GPT-2 级别小模型完成完整训练

理解 GPU 架构设计哲学、存储层次、主流 GPU 规格对比和互联拓扑，为 CUDA 编程建立硬件认知

掌握分布式训练的通信原语（AllReduce、AllGather 等）、Ring/Tree 通信算法和 NCCL 的使用与调优