第6章：3D 并行与混合训练策略

本章简介

实际大模型训练往往需要多种并行策略和显存优化技术的组合。本章将它们融会贯通。

3D 并行设计讲解 TP + PP + DP 的通信域划分和拓扑映射原则（TP 在机内 NVLink，PP 跨机 IB，DP 跨节点），并进行设计练习：64 卡（8 节点 × 8 卡）集群的 3D 并行方案。

混合精度训练对比 FP32/FP16/BF16/FP8 的数值范围与精度，解释 BF16 为什么更受大模型青睐，详解混合精度训练流程和 FP8 训练。

梯度累积在有限显存下模拟更大 Effective Batch Size 的技巧及其与分布式训练的配合。

Activation Checkpointing通过只保存部分激活值、需要时重新计算来节省显存，分析 Selective Checkpointing 策略的 trade-off。

MoE 并行介绍 Expert Parallelism、All-to-All 通信和 MoE + DP + TP + PP 的组合策略。

长序列训练覆盖 Ring Attention / Ulysses / Context Parallel 的工程实现。