🌐 分布式训练 17 篇文章 · 11 个章节

模块三：分布式训练

从分布式训练总论出发，深入数据并行、ZeRO 系列、张量并行、流水线并行、3D 并行策略，最终通过训练框架实战串联全部知识。

章节目录

从模型规模瓶颈出发，手算训练显存账本，总览五大并行策略，并落到 rank/torchrun/NCCL 的环境搭建与第一个 DDP 脚本

分布式训练的物理地基——AllReduce/ReduceScatter/AllGather/All-to-All 等集合通信操作的语义、Ring 算法原理与通信量量化分析

理解主流优化器的演进逻辑与内部状态组成，掌握优化器显存开销分析方法，为 ZeRO 显存优化和混合精度训练打下基础

掌握数据并行三代方案的演进逻辑、核心机制和工程实践，理解 AllReduce 梯度同步与参数分片的本质区别

逐层拆解 ZeRO-1/2/3 的切分策略与通信代价，掌握 ZeRO-Offload/Infinity 的异构内存卸载机制

掌握 Megatron-LM 的张量并行方案（Column/Row Parallel Linear）、通信插入位置推导，以及序列并行对激活显存的优化

理解流水线并行的 Bubble 问题本质，掌握 GPipe、1F1B、Interleaved 三种调度策略的设计与量化分析

掌握 FP16/BF16/FP8 混合精度训练流程、梯度累积、Activation Checkpointing 等核心显存优化技术及其代价分析

突破序列长度墙——Attention 的 O(s²) 困境，Ring Attention、DeepSpeed-Ulysses、Megatron Context Parallel 三种长序列并行方案对比

稀疏专家模型的并行之道——Router 机制、Expert Parallelism 的 All-to-All 通信、EP×DP×TP×PP 多维组合与负载均衡

把所有并行维度拼起来——TP×PP×DP×EP×CP 的拓扑设计、通信域映射、rank 编排，以及如何为给定集群选出最优组合

前置知识模块（尤其是第6章集合通信基础）