跳到主要内容
🌐 分布式训练 8 篇文章 · 7 个章节

模块三:分布式训练

从分布式训练总论出发,深入数据并行、ZeRO 系列、张量并行、流水线并行、3D 并行策略,最终通过训练框架实战串联全部知识。

开始学习

章节目录

理解分布式训练的必要性、训练状态显存分析和并行策略全景,建立系统化的并行思维
从 DP 到 DDP 再到 FSDP,掌握数据并行的演进路线、通信机制和工程实践
深入理解 ZeRO-1/2/3 的切分策略、通信量分析,以及 ZeRO-Offload/Infinity 的 CPU/NVMe 卸载机制
掌握 Megatron-LM 的张量并行方案(Column/Row Parallel Linear)和序列并行,理解 TP 的通信约束
理解流水线并行的原理、GPipe/1F1B/Interleaved 调度策略和 Bubble 分析
掌握 TP+PP+DP 的 3D 并行设计、混合精度训练、梯度累积、Activation Checkpointing、MoE 并行和长序列训练
深入 Megatron-LM 和 DeepSpeed 的代码架构与配置,掌握训练稳定性保障和 Checkpoint 策略

学习建议

前置要求

前置知识模块(尤其是第6章 集合通信基础)

  • 分布式训练总论提供全局视角,建议首先阅读
  • ZeRO 系列是理解现代分布式训练的关键,建议重点学习
  • 训练框架实战章节会将前面的理论知识串联起来