跳到主要内容
T0 大厂 阿里巴巴 一面

阿里巴巴 淘天 AI Infra 一面 (2)

阿里巴巴 AI Infra 一面面试真题,涵盖AI Infra等方向

基础知识

  1. 阐述 GRPO 与 PPO 的核心区别。
  2. PPO 中 Clip 操作的具体作用是什么?
  3. 重要性采样的作用有哪些?除了与 Clip 操作结合限制更新幅度之外,还有什么其他用途?与使用 KL 散度约束更新的方式有何区别?
  4. 什么是马尔可夫性质?请给出形式化定义。
  5. 从早期策略梯度算法到 GRPO,发展过程中哪些模块被保留、哪些被舍弃?请梳理演进脉络并说明原因。

项目经历

  1. 共享屏幕讲解论文,包括研究背景、任务设定及对应的实际业务场景。
  2. 详细说明工作流程、训练方法以及所用公式的推导细节。

编程题

  1. 二叉搜索树迭代器(LeetCode 173),要求先阐述思路,给出从暴力到最优的多种解法。