第2章：推理引擎核心技术

本章简介

现代 LLM 推理引擎的高性能来自四大核心技术的协同，本章逐一深入。

PagedAttention借鉴操作系统虚拟内存分页的思想，通过虚拟页/物理页映射解决 KV Cache 碎片化问题，大幅提升内存利用率。

Continuous Batching解决 Static Batching 中短请求被长请求拖累的问题：请求随到随拼、完成随时退出，实现 Iteration-level Scheduling，将 GPU 利用率从约 30% 提升到 80%+。

Prefix Cache / RadixAttention针对大量请求共享相同 System Prompt 的场景：vLLM 的 Prefix Cache 通过 Hash 匹配复用已有 KV 块，SGLang 的 RadixAttention 基于 Radix Tree 实现更高效的前缀共享。

Chunked Prefill将长 Prompt 拆成多个 Chunk 分块处理，减少 Prefill 对 Decode 请求的干扰，与 Continuous Batching 配合提升整体吞吐。

本章简介

搜索