跳到主要内容
T0 大厂 字节跳动

字节跳动 AI Infra (2)

字节跳动 AI Infra 面试真题,涵盖推理优化、高性能计算等方向

推理优化 高性能计算

推理优化

  1. vLLM 中 PagedAttention 的实现机制及其设计动机是什么?
  2. KV Cache 的原理是什么?有哪些针对性的优化方法?
  3. FlashAttention 的核心技术点有哪些?

高性能计算

  1. 大模型推理中,系统资源调度与并发处理需要关注哪些要点?
  2. 如何综合运用多种技术手段实现推理加速?