跳到主要内容
推理优化

第6章:Prefill/Decode 解耦架构

理解 P/D 混合 Batching 的问题、DistServe/Splitwise 等解耦方案、Goodput 与 SLO 感知调度

P/D解耦 DistServe Splitwise Goodput SLO

本章简介

Prefill 和 Decode 的计算特性截然不同(Compute Bound vs Memory Bound),混在一起会互相干扰。本章深入解耦架构的设计与挑战。

混合 Batching 的问题定量分析 Prefill 对 Decode 的干扰:Decode P95 TPOT 可被拖慢 3-5 倍。

解耦架构设计覆盖 DistServe(OSDI’24,系统化论证 P/D 解耦)、Splitwise(ISCA’24,分配到不同 GPU 池)、TaiChi(聚合与解耦统一框架)和 MLC Microserving(跨引擎编排)。

Goodput 与 SLO 感知调度强调 Raw QPS 不等于用户体验,Goodput(满足 SLO 的有效吞吐)才是真正的优化目标。

解耦架构的挑战包括 KV Cache 从 Prefill 节点迁移到 Decode 节点的带宽压力、调度器复杂度、P/D GPU 池的资源配比推导。

动手实验:构造混合负载场景量化 P/D 互扰程度,推导给定工作负载下的 P/D GPU 池配比。