推理优化
第2章:推理引擎核心技术
掌握 PagedAttention、Continuous Batching、Prefix Cache 和 Chunked Prefill 四大推理引擎核心技术
PagedAttention Continuous Batching Prefix Cache Chunked Prefill
本章简介
现代 LLM 推理引擎的高性能来自四大核心技术的协同,本章逐一深入。
PagedAttention借鉴操作系统虚拟内存分页的思想,通过虚拟页/物理页映射解决 KV Cache 碎片化问题,大幅提升内存利用率。
Continuous Batching解决 Static Batching 中短请求被长请求拖累的问题:请求随到随拼、完成随时退出,实现 Iteration-level Scheduling,将 GPU 利用率从约 30% 提升到 80%+。
Prefix Cache / RadixAttention针对大量请求共享相同 System Prompt 的场景:vLLM 的 Prefix Cache 通过 Hash 匹配复用已有 KV 块,SGLang 的 RadixAttention 基于 Radix Tree 实现更高效的前缀共享。
Chunked Prefill将长 Prompt 拆成多个 Chunk 分块处理,减少 Prefill 对 Decode 请求的干扰,与 Continuous Batching 配合提升整体吞吐。