跳到主要内容
T0 大厂 字节跳动

字节跳动 抖音电商 AI Infra

字节跳动 AI Infra 面试真题,涵盖训练优化等方向

训练优化

训练优化

  1. SFT 阶段使用的模型、数据来源、数据处理方式和训练框架分别是什么?
  2. 请详细介绍 PPO 的训练流程,包括数据准备、奖励模型训练、各模型的损失函数设计以及所用的计算资源。
  3. DPO 的训练流程是什么?PPO 与 DPO 有何区别?是否做过对比实验?
  4. 如何评估微调后模型的性能提升?
  5. PPO 效果优于 DPO 的原因可能是什么?如何理解多轮 DPO 带来的性能提升?
  6. GRPO 的原理是什么?
  7. 为什么有了 SFT 之后还需要 RLHF?

基础知识

  1. CLIP 的训练原理是什么?
  2. 请介绍几种常见的深度学习优化器。
  3. Multi-Head Attention 的原理是什么?
  4. LoRA 的原理是什么?秩 r 的大小对模型训练有什么影响?
  5. ViT 的训练原理是什么?
  6. Swin Transformer 的核心设计思想是什么?
  7. Qwen3 中快思考与慢思考的实现原理是什么?

项目经历

  1. 请介绍项目中的创新点及其代码实现细节,包括消融实验的设计方案。

编程题

  1. 编程题考察。