跳到主要内容
T2 AI 独角兽 MiniMax 实习 二面

MiniMax AI Infra 实习 二面

MiniMax AI Infra 实习二面面试真题,涵盖训练优化、高性能计算等方向

训练优化 高性能计算

项目经历提问

  1. 请分享你在实习中参与的项目,着重描述你遇到的最大技术难题以及取得的优化成果

理论问答

  1. DeepSpeed ZeRO 的三个阶段(Stage-1 / Stage-2 / Stage-3)各自对哪些状态进行了切分?它们在通信量和显存节省上有何递进关系?
  2. 训练大模型时,你使用过哪些并行方案?数据并行、张量并行和流水线并行的设计思想与适用条件分别是什么?
  3. 假设需要训练一个 70B 参数量级的模型,如何粗略计算单张 GPU 所需的显存量?
  4. LoRA 的核心思想是什么?为什么通过低秩矩阵分解可以大幅降低需要更新的参数数量?
  5. 在 LoRA 中,降维矩阵 A 和升维矩阵 B 的初始化方式为何不同?这样设计的目的是什么?
  6. 除了 ZeRO 系列之外,你还了解哪些用于大模型训练的优化技术?

代码题

  1. 实现一个滑动窗口求最大值的算法