T5 其他 小厂 实习
小厂 AI Infra 实习 (1)
小厂 AI Infra 实习面试真题,涵盖推理优化等方向
推理优化
推理优化
- 描述 vLLM 中 scheduler 的调度流程
- vLLM 中请求被抢占后的后续处理机制
- 投机采样推理中草稿模型与主模型的交互流程,比较 vLLM 与 SGLang 的实现差异
- 阐述 GPTQ 量化与 SmoothQuant 的原理
- 介绍 DeepSeek V3 中 EPLB 的推理机制
- MLA 在 prefill 与 decode 阶段的计算复杂度差异,以及矩阵吸收优化的原理
- DeepSeek V3.2 相较前代有哪些创新点
- SGLang 中多模态场景下开启 TP 时,ViT 的 image embedding 在多个进程间如何高效复用