T0 大厂 字节跳动 2026年4月17日 字节跳动 AI Infra (2) 字节跳动 AI Infra 面试真题,涵盖推理优化、高性能计算等方向 推理优化 高性能计算 推理优化 vLLM 中 PagedAttention 的实现机制及其设计动机是什么? KV Cache 的原理是什么?有哪些针对性的优化方法? FlashAttention 的核心技术点有哪些? 高性能计算 大模型推理中,系统资源调度与并发处理需要关注哪些要点? 如何综合运用多种技术手段实现推理加速? 上一篇 字节跳动 AI Infra (1) 下一篇 字节跳动 AI Infra 一面 (1)