章节目录
从模型规模瓶颈出发,手算训练显存账本,总览五大并行策略及其选择原则
2 第2章:优化器
理解主流优化器的演进逻辑与内部状态组成,掌握优化器显存开销分析方法,为 ZeRO 显存优化和混合精度训练打下基础
掌握数据并行三代方案的演进逻辑、核心机制和工程实践,理解 AllReduce 梯度同步与参数分片的本质区别
逐层拆解 ZeRO-1/2/3 的切分策略与通信代价,掌握 ZeRO-Offload/Infinity 的异构内存卸载机制
掌握 Megatron-LM 的张量并行方案(Column/Row Parallel Linear)、通信插入位置推导,以及序列并行对激活显存的优化
理解流水线并行的 Bubble 问题本质,掌握 GPipe、1F1B、Interleaved 三种调度策略的设计与量化分析
掌握 TP+PP+DP 的 3D 并行拓扑设计,以及混合精度、梯度累积、Activation Checkpointing、MoE 并行、长序列并行等关键训练优化技术
深入两大主流训练框架的代码架构、配置方法与最佳实践,掌握训练稳定性保障和 Checkpoint 策略
学习建议
前置要求
前置知识模块(尤其是第6章 集合通信基础)
- 分布式训练总论提供全局视角,建议首先阅读
- ZeRO 系列是理解现代分布式训练的关键,建议重点学习
- 训练框架实战章节会将前面的理论知识串联起来