机器学习面试题-第五章正则化（大厂必问，历经半年整理）

本文链接：https://blog.csdn.net/cc13186851239/article/details/114335951

本文详细介绍了正则化技术的基本概念及其应用，包括L0、L1和L2正则化的特点与区别，探讨了L1正则化如何产生稀疏性以及归一化的重要性。此外还解释了不同算法对数据预处理的需求。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

文章目录

老铁们✌，重要通知🙌！福利来了！！！😉
5.正则化

老铁们✌，重要通知🙌！福利来了！！！😉

【计算机视觉复习流程剖析及面试题详解】
【深度学习算法最全面面试题（30 页）】
【机器学习算法最全面面试题（61页）】

5.正则化

手推L1,L2

在这里插入图片描述

5.1 什么是正则化？如何理解正则化？

定义: 在损失函数后加上一个正则化项（惩罚项），其实就是常说的结构风险最小化策略，即损失函数加上正则化。一般模型越复杂，正则化值越大。
正则化项是用来对模型中某些参数进行约束，正则化的一般形式：
在这里插入图片描述

第一项是损失函数（经验风险），第二项是正则化项
公式可以看出，加上惩罚项后损失函数的值会增大，要想损失函数最小，惩罚项的值要尽可能的小，模型参数就要尽可能的小，这样就能减小模型参数，使得模型更加简单。

5.2 L0、L1、L2正则化？

L0范数：计算向量中非0元素的个数。
L0范数和L1范数目的是使参数稀疏化。
L1范数比L0范数容易优化求解。

5.3 L1和L2正则化有什么区别？‍

在这里插入图片描述

5.4 L1在0处不可导是怎么处理的？

1.坐标轴下降法是沿着坐标轴的方向
Eg: lasso回归的损失函数是不可导的
2.近端梯度下降(Proximal Algorithms)
3.交替方向乘子法(ADMM)

5.5 L1正则化产生稀疏性的原因?对稀疏矩阵的理解？

在这里插入图片描述

L1 正则化会使得许多参数的最优值变成 0，这样模型就稀疏了。
稀疏矩阵指有很多元素为0，少数参数为非零值。只有少部分特征对模型有贡献，大部分特征对模型没有贡献或者贡献很小，稀疏参数的引入，使得一些特征对应的参数是0，所以就可以剔除可以将那些没有用的特征，从而实现特征选择，提高模型的泛化能力，降低过拟合的可能。

5.6 为何要常对数据做归一化？

1.归一化后加快的梯度下降对最优解的速度。
2.归一化有可能提高精度。

5.7 归一化的种类

在这里插入图片描述

5.8 归一化和标准化的区别

标准化是依照特征矩阵的列处理数据，其通过求z-score的方法，将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据，其目的在于样本向量在点乘运算或其他核函数计算相似性时，拥有统一的标准，也就是说都转化为“单位向量”。
归一化的目的是方便比较，可以加快网络的收敛速度；标准化是将数据利用z-score（均值、方差）的方法转化为符合特定分布的数据，方便进行下一步处理，不为比较。