章节目录
理解分布式训练的必要性、训练状态显存分析和并行策略全景,建立系统化的并行思维
2 第2章:数据并行
从 DP 到 DDP 再到 FSDP,掌握数据并行的演进路线、通信机制和工程实践
深入理解 ZeRO-1/2/3 的切分策略、通信量分析,以及 ZeRO-Offload/Infinity 的 CPU/NVMe 卸载机制
掌握 Megatron-LM 的张量并行方案(Column/Row Parallel Linear)和序列并行,理解 TP 的通信约束
理解流水线并行的原理、GPipe/1F1B/Interleaved 调度策略和 Bubble 分析
掌握 TP+PP+DP 的 3D 并行设计、混合精度训练、梯度累积、Activation Checkpointing、MoE 并行和长序列训练
深入 Megatron-LM 和 DeepSpeed 的代码架构与配置,掌握训练稳定性保障和 Checkpoint 策略
学习建议
前置要求
前置知识模块(尤其是第6章 集合通信基础)
- 分布式训练总论提供全局视角,建议首先阅读
- ZeRO 系列是理解现代分布式训练的关键,建议重点学习
- 训练框架实战章节会将前面的理论知识串联起来