T1 大厂/独角兽小米校招 2026年4月17日

小米 AI Infra 校招

小米 AI Infra 校招面试真题，涵盖推理优化等方向

推理优化

编程题

在编辑器中手写实现 MGA（Multi-head Group Attention），要求包括 init、forward 及注意力层的完整代码。
若无法完整实现，描述从输入到输出的完整计算流程。

推理优化

是否阅读过 vLLM 和 SGLang 的底层源码？对其架构有何理解？
KV Cache 有哪些加载方式？
PD 分离（Prefill-Decode 分离）机制的作用是什么？如何实现？
是否使用 vLLM 部署过模型？实测吞吐量为多少？
介绍 MTP（Multi-Token Prediction）机制的原理与作用。