- 对项目进行深入探讨
- MoE 架构是如何做到在模型参数规模不断增大时依然保持高效训练的?
- SFT 与 RLHF 在优化目标上存在哪些根本差异?完成 SFT 之后为什么通常还需要额外的 RLHF 训练?
- PPO 算法在 RLHF 流程中具体优化什么目标?请写出目标函数并解释各组成部分的含义
- 请简要介绍你最熟悉的大语言模型架构及其特点
- MoE 中路由模块的运行机制是怎样的?哪些因素会造成不同专家之间负载分配不均?
- 面对专家利用率不理想的情况,有哪些可行的路由优化方案?
- 编写一个求解滑动窗口内最大值的程序