跳到主要内容
🌐 分布式训练 9 篇文章 · 8 个章节

模块三:分布式训练

从分布式训练总论出发,深入数据并行、ZeRO 系列、张量并行、流水线并行、3D 并行策略,最终通过训练框架实战串联全部知识。

开始学习

章节目录

从模型规模瓶颈出发,手算训练显存账本,总览五大并行策略及其选择原则
理解主流优化器的演进逻辑与内部状态组成,掌握优化器显存开销分析方法,为 ZeRO 显存优化和混合精度训练打下基础
掌握数据并行三代方案的演进逻辑、核心机制和工程实践,理解 AllReduce 梯度同步与参数分片的本质区别
逐层拆解 ZeRO-1/2/3 的切分策略与通信代价,掌握 ZeRO-Offload/Infinity 的异构内存卸载机制
掌握 Megatron-LM 的张量并行方案(Column/Row Parallel Linear)、通信插入位置推导,以及序列并行对激活显存的优化
理解流水线并行的 Bubble 问题本质,掌握 GPipe、1F1B、Interleaved 三种调度策略的设计与量化分析
掌握 TP+PP+DP 的 3D 并行拓扑设计,以及混合精度、梯度累积、Activation Checkpointing、MoE 并行、长序列并行等关键训练优化技术
深入两大主流训练框架的代码架构、配置方法与最佳实践,掌握训练稳定性保障和 Checkpoint 策略

学习建议

前置要求

前置知识模块(尤其是第6章 集合通信基础)

  • 分布式训练总论提供全局视角,建议首先阅读
  • ZeRO 系列是理解现代分布式训练的关键,建议重点学习
  • 训练框架实战章节会将前面的理论知识串联起来