第8章：推理优化选型与端到端实战

本章简介

本章是推理优化模块的总结和实战落地，也是整个课程的收官。

优化选型决策树根据症状选择技术：TTFT 过高 → Chunked Prefill / Prefix Cache / GEMM 优化；TPOT 过高 → FlashAttention / Speculative Decoding；显存不够 → PagedAttention / 量化；尾延迟失控 → P/D 解耦 / SLO 感知调度。

优化组合注意事项强调技术叠加不等于效果叠加，分析常见冲突（Speculative Decoding + 量化、Speculative Decoding + Continuous Batching），建议优化顺序：OOM → TTFT → TPOT/Throughput → 尾延迟。

端到端部署实战走通完整流程：需求分析（模型规格、SLO 要求、硬件资源）→ 方案设计（框架、量化、并行方案）→ 部署（模型转换、配置调优、压测验证）→ 上线监控（指标采集、告警、容量规划）。

课程总结回顾四大模块的知识关联图、核心 trade-off 汇总表，以及持续学习建议：跟踪前沿论文、参与开源社区、积累工程经验。

本章简介

搜索