T2 AI 独角兽 MiniMax 实习一面 2026年4月17日

MiniMax AI Infra 实习一面 (1)

MiniMax AI Infra 实习一面面试真题，涵盖推理优化、训练优化等方向

推理优化训练优化

项目深挖

请介绍你的实习项目和研究工作

理论基础

SFT 和 RLHF 的训练目标在本质上有何不同？为什么大多数模型做完 SFT 之后还要再经过 RLHF 阶段？
MoE 模型中路由模块是怎样决定将 token 分配给哪些专家的？什么原因会导致专家之间的负载出现严重不均？
当部分专家的利用率明显偏低时，可以通过哪些手段改进路由策略来提高利用率？
请介绍你比较熟悉的大模型架构，并从注意力计算、训练方法和推理效率等维度分析它们之间的主要差异
PPO 在 RLHF 框架中优化的核心目标是什么？请写出其目标函数并对其中每一项进行解释
MoE 架构在模型参数量不断增长的背景下，为何仍能维持相对较高的训练效率？

现场编程

给定 K 个已排序的数组，求它们合并后的中位数