推理优化
第8章:推理优化选型与端到端实战
掌握推理优化选型决策树、技术叠加注意事项,完成从需求分析到上线监控的端到端部署实战
推理优化 选型决策 端到端部署 课程总结
本章简介
本章是推理优化模块的总结和实战落地,也是整个课程的收官。
优化选型决策树根据症状选择技术:TTFT 过高 → Chunked Prefill / Prefix Cache / GEMM 优化;TPOT 过高 → FlashAttention / Speculative Decoding;显存不够 → PagedAttention / 量化;尾延迟失控 → P/D 解耦 / SLO 感知调度。
优化组合注意事项强调技术叠加不等于效果叠加,分析常见冲突(Speculative Decoding + 量化、Speculative Decoding + Continuous Batching),建议优化顺序:OOM → TTFT → TPOT/Throughput → 尾延迟。
端到端部署实战走通完整流程:需求分析(模型规格、SLO 要求、硬件资源)→ 方案设计(框架、量化、并行方案)→ 部署(模型转换、配置调优、压测验证)→ 上线监控(指标采集、告警、容量规划)。
课程总结回顾四大模块的知识关联图、核心 trade-off 汇总表,以及持续学习建议:跟踪前沿论文、参与开源社区、积累工程经验。