跳到主要内容
T0 大厂 字节跳动 实习 一面

字节跳动 AI Infra 实习 一面 (4)

字节跳动 AI Infra 实习一面面试真题,涵盖训练优化、高性能计算等方向

训练优化 高性能计算

基础知识

  1. 请阐述 DeepSpeed 框架的核心设计理念和主要功能。
  2. 选择 ZeRO Stage 3 的原因是什么?请推导其显存节省的计算公式。
  3. 除 DeepSpeed 外,还使用过哪些分布式训练加速框架?它们之间有何区别?
  4. BLIP 与 BLIP-2 的主要区别是什么?当前主流的多模态模型采用什么架构?
  5. Q-Former 的设计原理和作用是什么?

训练优化

  1. 内容理解任务的技术路线是什么?如果要训练一个 chart-to-story 模型,数据应如何构造?

项目经历

  1. 请介绍你参与的核心项目。

编程题

  1. 实现整数平方根函数(LeetCode 69),并讨论可能的优化方法。