T1 大厂/独角兽快手实习一面 2026年4月17日

快手 AI Infra 实习一面 (3)

快手 AI Infra 实习一面面试真题，涵盖推理优化、训练优化、算子优化等方向

推理优化训练优化算子优化

KV Cache 压缩有哪些常见方法？
分别阐述 MHA、MQA、GQA 的概念，以及 KV 广播的实现方式。Multi-head Latent Attention（MLA）与 GQA 之间的数据对应关系是怎样的？给定 hidden_size 和 RoPE 维度，MLA 对应多少个 GQA head？
DeepSpeed ZeRO-1/2/3 各阶段分别做了哪些优化？假设模型参数量为 N，使用 Adam 优化器，ZeRO-1 如何在 P 个 GPU 之间分配显存？不同数据类型（FP32/FP16）对显存占用有何影响？
SmoothQuant 的原理是什么？为什么需要进行 Smooth 操作？超参数如何确定？如何判断一个模型是否适合 SmoothQuant？若使用逐层激活值分布来判断，应关注 input channel 还是 output channel？
AWQ 和 GPTQ 的原理分别是什么？二者有何区别？
GPU 分布式通信原语有哪些？All-Gather、All-to-All 各自适用于什么场景？

搜索