T0 大厂 百度 实习 一面
百度 AI Infra 实习 一面 (3)
百度 AI Infra 实习一面面试真题,涵盖推理优化、算子优化等方向
推理优化 算子优化
分布式训练
- 解释 TP、PP、DP 三种并行策略的含义及具体执行流程
- 如何根据 TP 与 PP 的通信开销进行并行策略选择?
量化
- 解释 per-tensor、per-channel、group-wise 三种量化粒度的区别
- 不同量化方法之间的精度差异,以及 group-wise 为何能进一步降低量化误差
- 各量化方式的计算开销对比及优化手段
- 量化过程中如何处理异常值(outlier)?
- 分别介绍 GPTQ、AWQ、SmoothQuant 的核心思路
- KV Cache 量化的原理与实现方式
注意力机制与推理优化
- FlashAttention 的加速原理是什么?
- FlashAttention v1 与 v2 之间的主要区别
- FlashAttention 中 Bc 块的切分策略,以及 1-loop FlashAttention 的实现方式
- PagedAttention 的设计思路
- 大模型 prefill 阶段与 decoding 阶段的区别及其成因
- FlashAttention 在 decoding 阶段存在什么问题?FlashDecoding 的改进思路
算子实现
- RMSNorm 的具体实现方式
- CUDA Kernel 优化的一般思路与方法论
- 给定 Conv2D 输入 [C=64, W=64, H=128]、卷积核 3x3、输出 [C=128, W=64, H=128],计算参数量与 FLOPs
- 在 CPU 上进行算子优化有哪些方法(如 AVX-512 等)?
C++ 基础
- 智能指针的分类及使用场景
编程题
- 实现 CUDA LayerNorm Kernel