T5 其他 Teleai 实习一面 2026年4月17日

Teleai AI Infra 实习一面

Teleai AI Infra 实习一面面试真题，涵盖推理优化、算子优化、高性能计算等方向

推理优化算子优化高性能计算

理论基础

CLIP 模型的工作原理和推理时的执行流程是怎样的？
大模型推理场景中常见的算子优化方向有哪些（例如访存优化、并行化策略等）？
DeepSeek-R1 与一般的基座大语言模型相比有什么不同之处？
你有没有实际编写过 CUDA 算子的经验？开发的算子在性能方面达到了什么水平？
如果需要对 vLLM 框架进行功能定制或二次开发，可以从哪些模块或层面入手？
vLLM 和 SGLang 这两个推理框架有哪些差别？SGLang 相比 vLLM 的优势体现在哪里？SGLang 为什么在推理类大模型上表现更好？
大模型量化技术的基本原理是什么？你是否有过实际部署量化模型的经历？是否研究过 AutoAWQ 的实现代码？
华为昇腾平台上的 CANN 和 MindIE 框架分别包含哪些核心组件？

开放场景

如何将 vLLM 适配到自研的模型架构上？
V100 GPU 的显存大小是多少？将 DeepSeek 或 Qwen 的 32B 模型做 INT8 量化后是否可以在 V100 上运行？具体的部署方案是什么？
在高并发条件下，如何对推理服务进行压力测试以确定其能承受的最大并发量？测试过程中需要重点监控哪些指标（例如 batch size、响应延迟、吞吐量等）？