T0 大厂 字节跳动
字节跳动 AI Infra (1)
字节跳动 AI Infra 面试真题,涵盖推理优化、高性能计算等方向
推理优化 高性能计算
推理优化
- 请阐述 KV Cache 的工作原理及常见优化策略。
- PagedAttention 的核心思想是什么?它如何提升显存利用率?
- FlashAttention 的实现原理是什么?相比标准 Attention 有哪些优势?
- vLLM 框架的核心设计理念是什么?
- 从系统层面出发,有哪些综合性的推理加速策略?
字节跳动 AI Infra 面试真题,涵盖推理优化、高性能计算等方向