T0 大厂 字节跳动
字节跳动 抖音电商 AI Infra
字节跳动 AI Infra 面试真题,涵盖训练优化等方向
训练优化
训练优化
- SFT 阶段使用的模型、数据来源、数据处理方式和训练框架分别是什么?
- 请详细介绍 PPO 的训练流程,包括数据准备、奖励模型训练、各模型的损失函数设计以及所用的计算资源。
- DPO 的训练流程是什么?PPO 与 DPO 有何区别?是否做过对比实验?
- 如何评估微调后模型的性能提升?
- PPO 效果优于 DPO 的原因可能是什么?如何理解多轮 DPO 带来的性能提升?
- GRPO 的原理是什么?
- 为什么有了 SFT 之后还需要 RLHF?
基础知识
- CLIP 的训练原理是什么?
- 请介绍几种常见的深度学习优化器。
- Multi-Head Attention 的原理是什么?
- LoRA 的原理是什么?秩 r 的大小对模型训练有什么影响?
- ViT 的训练原理是什么?
- Swin Transformer 的核心设计思想是什么?
- Qwen3 中快思考与慢思考的实现原理是什么?
项目经历
- 请介绍项目中的创新点及其代码实现细节,包括消融实验的设计方案。
编程题
- 编程题考察。