算法工程师《面试八股文》——葵花宝典

由于秋招现阶段如火如荼,加之各种面试难度不断提高。算法工程师也开始从项目——框架原理——八股 各方面开始卷了!
为此,特更新此blog,记录实习,秋招的各类面试八股题,谨以记录。
该篇blog会持续更新ing~~  记得关注,收藏哦!!

1. 深度学习基础

  • LN和BN的原理和区别
  • 交叉熵的数学推导
  • 交叉熵的代码手写
  • sigmoid的代码手写
  • 手撕多头注意力
  • ReLU为什么能缓解梯度消失
  • Adam优化器原理
  • AUC计算方法
  • Python装饰器作用
  • KL散度
  • softmax公式
  • 梯度消失和梯度爆炸如何缓解
  • 手撕NMS过程
  • L1和L2正则的区别
  • BN中可学习参数如何获取
  • 如何缓解过拟合
  • 介绍一下dropout

2. 多模态/NLP算法

  • 介绍dpo算法原理
  • gpt和bert的结构和参数量
  • flash attention原理
  • bert预训练任务,embedding
  • fp16量化训练的策略
  • qformer原理
  • 了解哪些位置编码及原理
  • clip原理
  • blip2架构
  • sft,lora和pretrain的区别
  • llava和llama的区别
  • 手撕BCE,InfoNCE损失
  • 什么是大模型幻觉
  • 混合精度训练是什么
  • 很多大模型decoder-only原因
  • 手撕RMSNorm
  • deepspeed原理及使用
  • peft微调介绍一下
  • 介绍一下RAG

3. AIGC生成式

  • vit,dit原理
  • ddpm/ddim原理,区别
  • ae,vae,vq-vae的原理与区别
  • U-net网络设计思路
  • 怎么保证长视频一致性
  • 怎么保证背景一致性
  • cross attention用法

4. 架构理解篇


Q1 Transformer模型主要由哪两部分组成?
Q2 自注意力机制中的Q、K、V矩阵是什么缩写?
Q3 多头注意力中"头"(head)指的是什么?
Q4 位置编码的作用是什么?
Q5 Encoder和Decoder结构的主要区别?
Q6 为什么要使用残差连接(Residual Connection)?


5.基础组件篇


Q7 前馈神经网络(FFN)有多少层?
Q8 Layer Normalization放在哪个位置?
Q9 激活函数ReLU和GeLU的主要区别?
Q10 词嵌入(Word Embedding)的维度代表什么?
Q11 注意力掩码(Attention Mask)的作用是什么?
Q12 为什么要使用dropout技术?


6. 训练基础篇


Q13 预训练(Pre-training)的目标是什么?
Q14 什么是语言模型中的"自回归生成"?
Q15 数据并行的基本实现方式?
Q16 什么是训练中的批量大小(Batch Size)?
Q17 学习率(Learning Rate)过大会导致什么问题?
Q18 训练损失(Training Loss)下降说明什么?


7.模型应用篇


Q19 什么是文本生成中的贪心解码(Greedy Decoding)?
Q20 温度参数(Temperature)如何影响生成结果?
Q21 模型推理时为什么要限制生成长度?
Q22 什么是提示工程(Prompt Engineering)?
Q23 模型微调(Fine-tuning)的目的是什么?
Q24 模型量化(Quantization)的基本原理?


8.基础概念篇


Q25 参数量(Parameters)和计算量(FLOPs)的区别?
Q26 什么是生成式AI(Generative AI)?
Q27 预训练模型和传统NLP模型的核心区别?
Q28 为什么大模型需要海量训练数据?
Q29 什么是过拟合(Overfitting)现象?
Q30 模型推理(Inference)是指什么过程?


9.工程实践篇


Q31 GPU显存不足时常见的解决方法?
Q32 模型权重文件(Checkpoint)包含哪些内容?
Q33 什么是模型服务(Model Serving)?
Q34 批处理(Batching)如何提升推理速度?
Q35 为什么需要模型压缩技术?
Q36 常见的模型部署格式有哪些?(如ONNX)


10.评估基础篇


Q37 如何评估语言模型的生成质量?
Q38 困惑度(Perplexity)指标的计算原理?
Q39 人工评估和自动评估的优缺点?
Q40 什么是基准测试(Benchmark)?
 

### AIGC算法工程师面试常见问题总结 AIGC(Artificial Intelligence Generated Content)作为当前技术领域的重要方向之一,其算法工程师岗位备受关注。以下是针对该职位的一些常见面试问题及其解答思路。 #### 数据处理与特征工程 数据预处理和特征提取是机器学习项目的基础环节,在面试过程中可能会被重点考察。 - **如何处理缺失值?** 缺失值的处理方法多种多样,包括删除含有缺失值的样本、填充均值/中位数/众数等统计量或者利用插值法填补空白处[^2]。每种策略都有适用场景以及局限性,需根据具体业务需求权衡利弊后决定采用何种方式最为合适。 - **降维的方法有哪些?它们各自的优缺点是什么?** 主成分分析(PCA)是一种线性的无监督降维手段;t-SNE则适用于高维度空间到低维嵌入映射的任务当中,尤其擅长保持局部结构关系不变的同时揭示簇状分布特性[^3]。然而需要注意的是,t-SNE计算复杂度较高,不适合大规模数据集操作. #### 深度学习模型架构设计 构建高效的神经网络框架对于解决实际问题是至关重要的部分. - **谈谈你对Transformer的理解?它相比RNN有什么优势呢?** Transformer通过自注意力机制(Self-Attention Mechanism),能够并行化训练过程从而极大地提高了效率,并且可以捕捉更长距离依赖关系而不受序列长度限制的影响[^4].相比之下,RNN存在梯度消失等问题难以有效建模长时间跨度的信息交互情况. #### 实验评估与优化技巧 科学严谨地验证假设并通过不断迭代改进方案也是不可或缺的能力体现. - **当发现过拟合现象时应该怎样调整参数设置来缓解这个问题?** 可以尝试减少层数宽度降低容量规模;增加正则项强度比如L1/L2范数约束权重大小范围防止过度灵活匹配特定噪声点;应用Dropout随机丢弃节点连接概率控制泛化性能平衡点等等措施加以应对[^5]. ```python from sklearn.model_selection import train_test_split X_train, X_val, y_train, y_val = train_test_split(X, y, test_size=0.2) def evaluate_model(model, val_data): predictions = model.predict(val_data[0]) accuracy = sum([int(a==b) for a,b in zip(predictions,val_data[1])])/len(predictions) return accuracy ``` 以上仅列举了一小部分内容供参考学习之用,更多细节还需要深入研究相关文献资料获取全面认知水平提升机会。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Stuomasi_xiaoxin

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值