T2 AI 独角兽 MiniMax 一面 2026年4月17日

MiniMax AI Infra 一面

MiniMax AI Infra 一面面试真题，涵盖训练优化等方向

训练优化

理论问答

什么是 RAG？它通过什么方式来改善模型的生成质量？标准 RAG 方案通常存在哪些不足？与传统的”先检索再生成”的流程相比有何本质差异？
SFT 的主要工作流程是怎样的？训练数据集通常如何构建与筛选？
从数学视角出发，如何理解 Transformer 中 Attention 机制的核心含义？
你对 Agent 技术有了解吗？将 RAG 封装为 Agent 形态能够带来哪些好处？
如何系统性地评估一个 RAG 系统的实际表现？有哪些常用的评估指标或标准化测评框架可以参考？
LoRA 的工作原理是什么？在推理阶段，LoRA 微调后的模型是否仍然需要加载额外的 Adapter 模块？
PPO 和 DPO 在实现大模型对齐方面的核心区别在哪里？使用 DPO 训练时有哪些需要特别注意的问题？
是否接触或使用过 GRPO 算法？请简要说明
在多轮对话的 Agent 应用中，Attention 机制会暴露出哪些不足之处？
SFT 之后的 Post-Training 阶段通常包括哪些方法（如 RLHF 等）？这些方法分别以什么为优化目标？
微调 Qwen 模型时，如何选择训练阶段的策略？Loss 函数的设计是基于哪些考虑？
Prompt 自动推荐功能是如何实现优化的？是否尝试过通过 Prompt 压缩或基于 Embedding 的表征方法来提升效率？

项目深挖

工具调用的调度机制是如何设计的？系统是否支持异常情况下的 Fallback 降级处理？
项目中 Modular Agent 是通过什么方式完成多步规划（Multi-step Planning）的？
Agent 的评估体系涵盖了哪些方面？规划质量和幻觉产生的频率分别是如何度量的？

开放场景

设想某个 Agent 的推理流程需要依次调用 3 个外部工具，且面临高并发访问导致端到端延迟偏高，你会采取哪些工程手段来降低整体延迟？

现场编程

使用 PyTorch 编写 SFT 训练中的 loss 计算逻辑（需注意标签的 shift right 对齐操作）