跳到主要内容
T0 大厂 百度 实习 一面

百度 AI Infra 实习 一面 (3)

百度 AI Infra 实习一面面试真题,涵盖推理优化、算子优化等方向

推理优化 算子优化

分布式训练

  1. 解释 TP、PP、DP 三种并行策略的含义及具体执行流程
  2. 如何根据 TP 与 PP 的通信开销进行并行策略选择?

量化

  1. 解释 per-tensor、per-channel、group-wise 三种量化粒度的区别
  2. 不同量化方法之间的精度差异,以及 group-wise 为何能进一步降低量化误差
  3. 各量化方式的计算开销对比及优化手段
  4. 量化过程中如何处理异常值(outlier)?
  5. 分别介绍 GPTQ、AWQ、SmoothQuant 的核心思路
  6. KV Cache 量化的原理与实现方式

注意力机制与推理优化

  1. FlashAttention 的加速原理是什么?
  2. FlashAttention v1 与 v2 之间的主要区别
  3. FlashAttention 中 Bc 块的切分策略,以及 1-loop FlashAttention 的实现方式
  4. PagedAttention 的设计思路
  5. 大模型 prefill 阶段与 decoding 阶段的区别及其成因
  6. FlashAttention 在 decoding 阶段存在什么问题?FlashDecoding 的改进思路

算子实现

  1. RMSNorm 的具体实现方式
  2. CUDA Kernel 优化的一般思路与方法论
  3. 给定 Conv2D 输入 [C=64, W=64, H=128]、卷积核 3x3、输出 [C=128, W=64, H=128],计算参数量与 FLOPs
  4. 在 CPU 上进行算子优化有哪些方法(如 AVX-512 等)?

C++ 基础

  1. 智能指针的分类及使用场景

编程题

  1. 实现 CUDA LayerNorm Kernel