跳到主要内容
T2 AI 独角兽 MiniMax 实习 一面

MiniMax AI Infra 实习 一面 (2)

MiniMax AI Infra 实习一面面试真题,涵盖训练优化等方向

训练优化

项目经历提问

  1. 对项目进行深入探讨

理论基础

  1. MoE 架构是如何做到在模型参数规模不断增大时依然保持高效训练的?
  2. SFT 与 RLHF 在优化目标上存在哪些根本差异?完成 SFT 之后为什么通常还需要额外的 RLHF 训练?
  3. PPO 算法在 RLHF 流程中具体优化什么目标?请写出目标函数并解释各组成部分的含义
  4. 请简要介绍你最熟悉的大语言模型架构及其特点
  5. MoE 中路由模块的运行机制是怎样的?哪些因素会造成不同专家之间负载分配不均?
  6. 面对专家利用率不理想的情况,有哪些可行的路由优化方案?

代码题

  1. 编写一个求解滑动窗口内最大值的程序