T2 AI 独角兽 MiniMax 实习一面 2026年4月17日

MiniMax AI Infra 实习一面 (2)

MiniMax AI Infra 实习一面面试真题，涵盖训练优化等方向

训练优化

项目经历提问

对项目进行深入探讨

理论基础

MoE 架构是如何做到在模型参数规模不断增大时依然保持高效训练的？
SFT 与 RLHF 在优化目标上存在哪些根本差异？完成 SFT 之后为什么通常还需要额外的 RLHF 训练？
PPO 算法在 RLHF 流程中具体优化什么目标？请写出目标函数并解释各组成部分的含义
请简要介绍你最熟悉的大语言模型架构及其特点
MoE 中路由模块的运行机制是怎样的？哪些因素会造成不同专家之间负载分配不均？
面对专家利用率不理想的情况，有哪些可行的路由优化方案？

代码题

编写一个求解滑动窗口内最大值的程序