第3章：数据并行(DP、DDP、FSDP)

📖 本章概述

数据并行是最基础也最常用的并行策略。本章按”为什么演进”的逻辑线，讲清三代方案各自解决什么问题、引入什么代价。

核心机制：
- 每 GPU 一个独立进程，各自持有完整模型副本
- init_process_group 建立通信组
- DistributedSampler 保证各进程数据不重叠
- 反向传播中通过 AllReduce 同步梯度
Bucket 机制与计算通信重叠：
- 参数梯度按反向计算顺序分组为 Bucket
- 每个 Bucket 就绪后立即发起 AllReduce，不等全部反向完成
- 通信与后续 Bucket 的反向计算重叠（overlap）
通信量分析：每步 AllReduce 通信量 = $2\Psi$ （Ring AllReduce 下每卡收发总量）
使用要点：DistributedSampler + set_epoch()、仅 rank 0 日志/保存、model.module 访问原始参数
局限：每卡存完整模型 → 参数 + 梯度 + 优化器状态必须 ≤ 单卡显存

核心思想：不让每卡冗余存完整状态，而是分片存储，计算时按需 AllGather 组装
工作流程：
1. 初始状态：每卡只存 $\frac{1}{N}$ 的参数/梯度/优化器状态
2. 前向：AllGather 重组完整参数 → 计算 → 释放非本地分片
3. 反向：AllGather 参数 → 计算梯度 → ReduceScatter 分片梯度 → 释放完整参数
4. 更新：每卡只更新自己负责的分片
分片策略选择：
- FULL_SHARD（ZeRO-3）：参数+梯度+优化器全部分片，显存最省
- SHARD_GRAD_OP（ZeRO-2）：梯度+优化器分片，参数不分片
- HYBRID_SHARD：机内全分片 + 机间数据并行，多机训练推荐
- NO_SHARD：等价于 DDP，用于调试
通信量分析：每步 = AllGather（前向）+ AllGather + ReduceScatter（反向）= $3\Psi$ ，比 DDP 多 50%
工程配置：auto_wrap_policy（按模块大小或类型自动分片）、MixedPrecision 配置、DCP 保存/加载
FSDP2 简介：per-parameter 分片、基于 DTensor、与 TP 更好组合