由于秋招现阶段如火如荼,加之各种面试难度不断提高。算法工程师也开始从项目——框架原理——八股 各方面开始卷了!
为此,特更新此blog,记录实习,秋招的各类面试八股题,谨以记录。
该篇blog会持续更新ing~~ 记得关注,收藏哦!!
1. 深度学习基础
- LN和BN的原理和区别
- 交叉熵的数学推导
- 交叉熵的代码手写
- sigmoid的代码手写
- 手撕多头注意力
- ReLU为什么能缓解梯度消失
- Adam优化器原理
- AUC计算方法
- Python装饰器作用
- KL散度
- softmax公式
- 梯度消失和梯度爆炸如何缓解
- 手撕NMS过程
- L1和L2正则的区别
- BN中可学习参数如何获取
- 如何缓解过拟合
- 介绍一下dropout
2. 多模态/NLP算法
- 介绍dpo算法原理
- gpt和bert的结构和参数量
- flash attention原理
- bert预训练任务,embedding
- fp16量化训练的策略
- qformer原理
- 了解哪些位置编码及原理
- clip原理
- blip2架构
- sft,lora和pretrain的区别
- llava和llama的区别
- 手撕BCE,InfoNCE损失
- 什么是大模型幻觉
- 混合精度训练是什么
- 很多大模型decoder-only原因
- 手撕RMSNorm
- deepspeed原理及使用
- peft微调介绍一下
- 介绍一下RAG
3. AIGC生成式
- vit,dit原理
- ddpm/ddim原理,区别
- ae,vae,vq-vae的原理与区别
- U-net网络设计思路
- 怎么保证长视频一致性
- 怎么保证背景一致性
- cross attention用法
4. 架构理解篇
Q1 Transformer模型主要由哪两部分组成?
Q2 自注意力机制中的Q、K、V矩阵是什么缩写?
Q3 多头注意力中"头"(head)指的是什么?
Q4 位置编码的作用是什么?
Q5 Encoder和Decoder结构的主要区别?
Q6 为什么要使用残差连接(Residual Connection)?
5.基础组件篇
Q7 前馈神经网络(FFN)有多少层?
Q8 Layer Normalization放在哪个位置?
Q9 激活函数ReLU和GeLU的主要区别?
Q10 词嵌入(Word Embedding)的维度代表什么?
Q11 注意力掩码(Attention Mask)的作用是什么?
Q12 为什么要使用dropout技术?
6. 训练基础篇
Q13 预训练(Pre-training)的目标是什么?
Q14 什么是语言模型中的"自回归生成"?
Q15 数据并行的基本实现方式?
Q16 什么是训练中的批量大小(Batch Size)?
Q17 学习率(Learning Rate)过大会导致什么问题?
Q18 训练损失(Training Loss)下降说明什么?
7.模型应用篇
Q19 什么是文本生成中的贪心解码(Greedy Decoding)?
Q20 温度参数(Temperature)如何影响生成结果?
Q21 模型推理时为什么要限制生成长度?
Q22 什么是提示工程(Prompt Engineering)?
Q23 模型微调(Fine-tuning)的目的是什么?
Q24 模型量化(Quantization)的基本原理?
8.基础概念篇
Q25 参数量(Parameters)和计算量(FLOPs)的区别?
Q26 什么是生成式AI(Generative AI)?
Q27 预训练模型和传统NLP模型的核心区别?
Q28 为什么大模型需要海量训练数据?
Q29 什么是过拟合(Overfitting)现象?
Q30 模型推理(Inference)是指什么过程?
9.工程实践篇
Q31 GPU显存不足时常见的解决方法?
Q32 模型权重文件(Checkpoint)包含哪些内容?
Q33 什么是模型服务(Model Serving)?
Q34 批处理(Batching)如何提升推理速度?
Q35 为什么需要模型压缩技术?
Q36 常见的模型部署格式有哪些?(如ONNX)
10.评估基础篇
Q37 如何评估语言模型的生成质量?
Q38 困惑度(Perplexity)指标的计算原理?
Q39 人工评估和自动评估的优缺点?
Q40 什么是基准测试(Benchmark)?