T0 大厂阿里巴巴 2026年4月17日

阿里巴巴 AI Infra (1)

阿里巴巴 AI Infra 面试真题，涵盖算子优化、高性能计算等方向

算子优化高性能计算

项目经历提问

你是否有过利用 Agent 来自动生成 CUDA kernel 的实践？具体的实现方案是什么？
在大规模模型的训练或部署过程中，有没有用过底层调试工具来排查问题？当千卡集群中出现 NCCL Timeout 时，你会如何定位故障原因并解决？
如果去掉 Warp Specialization 优化，只保留 tile 分块和 Shared Memory 优化，性能下降主要会反映在哪些维度上？
你有没有 kernel 层面的优化经验？比如用 CuTe DSL 或者直接手写 CUDA 来实现 fusion 类算子，请详细说一说
在做 kernel fusion 时，你倾向于选择哪种技术方案？理由是什么？
推理服务正式上线之前，你做过哪些性能方面的优化工作？
编写 CUDA 代码时是否深入了解过底层硬件细节？例如 Hopper 架构下 Warp Specialization 的机制原理与底层实现方式
是否有过对 RL 场景下 MoE 模型的优化经验？
有没有做过 kernel fusion 后性能反而变差的情况？你认为原因出在哪里？
通过什么方式可以判断一个 MoE 模型真正实现了专家间的分工协作，而不是简单地把 Dense 模型做了参数切分？
在 RL + MoE 的训练场景下，是否碰到过 reward 信号引导路由产生偏差的问题（例如模型为了追求更高奖励而将大部分请求路由到少数几个 expert）？当时采取了什么应对措施？