跳到主要内容
T0 大厂 字节跳动

字节跳动 AI Infra (1)

字节跳动 AI Infra 面试真题,涵盖推理优化、高性能计算等方向

推理优化 高性能计算

推理优化

  1. 请阐述 KV Cache 的工作原理及常见优化策略。
  2. PagedAttention 的核心思想是什么?它如何提升显存利用率?
  3. FlashAttention 的实现原理是什么?相比标准 Attention 有哪些优势?
  4. vLLM 框架的核心设计理念是什么?
  5. 从系统层面出发,有哪些综合性的推理加速策略?