跳到主要内容
T0 大厂 腾讯

腾讯 AI Infra

腾讯 AI Infra 面试真题,涵盖推理优化等方向

推理优化

推理优化

  1. 介绍 FP4 量化的基本原理
  2. 量化场景下矩阵乘法的维度如何变化
  3. 硬件层面如何执行量化操作
  4. 实现量化推理对硬件有哪些具体要求
  5. FlashAttention 的作用与核心优化点
  6. FlashAttention 中注意力矩阵的维度推导过程
  7. FlashAttention 中 K 矩阵是否包含 Q 对应的那个维度
  8. 多头注意力与多 batch 场景下如何实现并行计算

基础知识

  1. GPU 架构相关问题
  2. 如何分析系统性能瓶颈