算法工程师《面试八股文》——葵花宝典

原创已于 2025-06-05 11:14:11 修改 · 402 阅读

6 ·

CC 4.0 BY-SA版权

文章标签：

#面试 #职场和发展 #人工智能 #算法 #八股文

于 2025-04-24 17:36:29 首次发布

人工智能同时被 2 个专栏收录

16 篇文章

订阅专栏

面试题

3 篇文章

订阅专栏

由于秋招现阶段如火如荼，加之各种面试难度不断提高。算法工程师也开始从项目——框架原理——八股各方面开始卷了！
为此，特更新此blog，记录实习，秋招的各类面试八股题，谨以记录。
该篇blog会持续更新ing~~ 记得关注，收藏哦！！

1. 深度学习基础

LN和BN的原理和区别
交叉熵的数学推导
交叉熵的代码手写
sigmoid的代码手写
手撕多头注意力
ReLU为什么能缓解梯度消失
Adam优化器原理
AUC计算方法
Python装饰器作用
KL散度
softmax公式
梯度消失和梯度爆炸如何缓解
手撕NMS过程
L1和L2正则的区别
BN中可学习参数如何获取
如何缓解过拟合
介绍一下dropout

2. 多模态/NLP算法

介绍dpo算法原理
gpt和bert的结构和参数量
flash attention原理
bert预训练任务，embedding
fp16量化训练的策略
qformer原理
了解哪些位置编码及原理
clip原理
blip2架构
sft，lora和pretrain的区别
llava和llama的区别
手撕BCE，InfoNCE损失
什么是大模型幻觉
混合精度训练是什么
很多大模型decoder-only原因
手撕RMSNorm
deepspeed原理及使用
peft微调介绍一下
介绍一下RAG

3. AIGC生成式

vit，dit原理
ddpm/ddim原理，区别
ae，vae，vq-vae的原理与区别
U-net网络设计思路
怎么保证长视频一致性
怎么保证背景一致性
cross attention用法

4. 架构理解篇

Q1 Transformer模型主要由哪两部分组成？
Q2 自注意力机制中的Q、K、V矩阵是什么缩写？
Q3 多头注意力中"头"（head）指的是什么？
Q4 位置编码的作用是什么？
Q5 Encoder和Decoder结构的主要区别？
Q6 为什么要使用残差连接（Residual Connection）？

5.基础组件篇

Q7 前馈神经网络（FFN）有多少层？
Q8 Layer Normalization放在哪个位置？
Q9 激活函数ReLU和GeLU的主要区别？
Q10 词嵌入（Word Embedding）的维度代表什么？
Q11 注意力掩码（Attention Mask）的作用是什么？
Q12 为什么要使用dropout技术？

6. 训练基础篇

Q13 预训练（Pre-training）的目标是什么？
Q14 什么是语言模型中的"自回归生成"？
Q15 数据并行的基本实现方式？
Q16 什么是训练中的批量大小（Batch Size）？
Q17 学习率（Learning Rate）过大会导致什么问题？
Q18 训练损失（Training Loss）下降说明什么？

7.模型应用篇

Q19 什么是文本生成中的贪心解码（Greedy Decoding）？
Q20 温度参数（Temperature）如何影响生成结果？
Q21 模型推理时为什么要限制生成长度？
Q22 什么是提示工程（Prompt Engineering）？
Q23 模型微调（Fine-tuning）的目的是什么？
Q24 模型量化（Quantization）的基本原理？

8.基础概念篇

Q25 参数量（Parameters）和计算量（FLOPs）的区别？
Q26 什么是生成式AI（Generative AI）？
Q27 预训练模型和传统NLP模型的核心区别？
Q28 为什么大模型需要海量训练数据？
Q29 什么是过拟合（Overfitting）现象？
Q30 模型推理（Inference）是指什么过程？