T0 大厂 字节跳动 实习 一面
字节跳动 AI Infra 实习 一面 (1)
字节跳动 AI Infra 实习一面面试真题,涵盖算子优化等方向
算子优化
算子优化
- 是否有 kernel 级别的优化经验?例如使用 CUTE DSL 或手写 CUDA 实现算子融合,请具体介绍。
- 进行 kernel fusion 时,通常倾向于采用哪种实现方式?
- 是否遇到过 fusion 后性能反而下降的情况?原因是什么?
- Hopper 架构中 warp specialization 的机制是什么?底层如何实现?
- 如果去掉 warp specialization,仅保留 tiling 和 shared memory 优化,性能损失主要体现在哪些方面?
推理优化
- 在 MoE 模型(如 RL 场景中)的推理优化方面是否有实践经验?
- 如何判断 MoE 模型确实学到了专家分工,而非仅仅将 dense 模型拆分?
- 在 RL + MoE 训练中,是否遇到过 reward 导致 routing 退化的情况(即所有请求集中到少数 expert)?如何处理?
项目经历
- 请介绍你的项目经历。
- 请介绍你的实习经历,包括上线运行的推理服务做过哪些优化。
- 是否尝试过使用 Agent 生成 CUDA kernel?具体方案是什么?