第6章：Prefill/Decode 解耦架构

本章简介

Prefill 和 Decode 的计算特性截然不同（Compute Bound vs Memory Bound），混在一起会互相干扰。本章深入解耦架构的设计与挑战。

混合 Batching 的问题定量分析 Prefill 对 Decode 的干扰：Decode P95 TPOT 可被拖慢 3-5 倍。

解耦架构设计覆盖 DistServe（OSDI’24，系统化论证 P/D 解耦）、Splitwise（ISCA’24，分配到不同 GPU 池）、TaiChi（聚合与解耦统一框架）和 MLC Microserving（跨引擎编排）。

Goodput 与 SLO 感知调度强调 Raw QPS 不等于用户体验，Goodput（满足 SLO 的有效吞吐）才是真正的优化目标。

解耦架构的挑战包括 KV Cache 从 Prefill 节点迁移到 Decode 节点的带宽压力、调度器复杂度、P/D GPU 池的资源配比推导。

动手实验：构造混合负载场景量化 P/D 互扰程度，推导给定工作负载下的 P/D GPU 池配比。