T0 大厂字节跳动 2026年4月17日

字节跳动 AI Infra (2)

字节跳动 AI Infra 面试真题，涵盖推理优化、高性能计算等方向

推理优化高性能计算

推理优化

vLLM 中 PagedAttention 的实现机制及其设计动机是什么？
KV Cache 的原理是什么？有哪些针对性的优化方法？
FlashAttention 的核心技术点有哪些？

高性能计算

大模型推理中，系统资源调度与并发处理需要关注哪些要点？
如何综合运用多种技术手段实现推理加速？