跳到主要内容
分布式训练

第1章:分布式训练总论

理解分布式训练的必要性、训练状态显存分析和并行策略全景,建立系统化的并行思维

分布式训练 显存分析 并行策略 3D并行

本章简介

本章是分布式训练模块的总纲,回答三个核心问题:为什么要分布式训练?训练到底需要多少显存?有哪些并行策略可选?

为什么需要分布式训练从模型规模增长趋势(GPT-3 175B → LLaMA-3 405B)出发,分析单卡显存瓶颈和训练时间瓶颈。

训练状态显存分析是本章重点:参数显存、梯度显存、优化器状态显存(Adam 的 FP32 副本 + 一阶/二阶动量)、激活值显存——手算 7B 模型 FP16 训练的完整显存账本。

并行策略全景总览数据并行(DP)、张量并行(TP)、流水线并行(PP)、序列并行(SP)、专家并行(EP)和 3D 并行的核心思想,以及选择原则:通信带宽决定并行策略的作用域。