机器学习 面试题-第五章 正则化(大厂必问,历经半年整理)

本文详细介绍了正则化技术的基本概念及其应用,包括L0、L1和L2正则化的特点与区别,探讨了L1正则化如何产生稀疏性以及归一化的重要性。此外还解释了不同算法对数据预处理的需求。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

老铁们✌,重要通知🙌!福利来了!!!😉

【计算机视觉 复习流程剖析及面试题详解 】
【深度学习算法 最全面面试题(30 页)】
【机器学习算法 最全面面试题(61页)】

5.正则化

手推L1,L2

在这里插入图片描述

5.1 什么是正则化?如何理解正则化?

定义: 在损失函数后加上一个正则化项(惩罚项),其实就是常说的结构风险最小化策略,即损失函数 加上正则化。一般模型越复杂,正则化值越大。
正则化项是用来对模型中某些参数进行约束,正则化的一般形式:
在这里插入图片描述

第一项是损失函数(经验风险),第二项是正则化项
公式可以看出,加上惩罚项后损失函数的值会增大,要想损失函数最小,惩罚项的值要尽可能的小,模型参数就要尽可能的小,这样就能减小模型参数,使得模型更加简单。

5.2 L0、L1、L2正则化?

L0范数:计算向量中非0元素的个数。
L0范数和L1范数目的是使参数稀疏化。
L1范数比L0范数容易优化求解。

5.3 L1和L2正则化有什么区别?‍

在这里插入图片描述

5.4 L1在0处不可导是怎么处理的?

1.坐标轴下降法是沿着坐标轴的方向
Eg: lasso回归的损失函数是不可导的
2.近端梯度下降(Proximal Algorithms)
3.交替方向乘子法(ADMM)

5.5 L1正则化产生稀疏性的原因?对稀疏矩阵的理解?

在这里插入图片描述

L1 正则化会使得许多参数的最优值变成 0,这样模型就稀疏了。
稀疏矩阵指有很多元素为0,少数参数为非零值。只有少部分特征对模型有贡献,大部分特征对模型没有贡献或者贡献很小,稀疏参数的引入,使得一些特征对应的参数是0,所以就可以剔除可以将那些没有用的特征,从而实现特征选择,提高模型的泛化能力,降低过拟合的可能。

5.6 为何要常对数据做归一化?

1.归一化后加快的梯度下降对最优解的速度。
2.归一化有可能提高精度。

5.7 归一化的种类

在这里插入图片描述

5.8 归一化和标准化的区别

标准化是依照特征矩阵的列处理数据,其通过求z-score的方法,将样本的特征值转换到同一量纲下。归一化是依照特征矩阵的行处理数据,其目的在于样本向量在点乘运算或其他核函数计算相似性时,拥有统一的标准,也就是说都转化为“单位向量”。
归一化的目的是方便比较,可以加快网络的收敛速度;标准化是将数据利用z-score(均值、方差)的方法转化为符合特定分布的数据,方便进行下一步处理,不为比较。

5.9 需要归一化的算法有哪些?这些模型需要归一化的主要原因?

线性回归,逻辑回归,KNN,SVM,神经网络。
主要是因为特征值相差很大时,运用梯度下降,损失等高线是椭圆形,需要进行多次迭代才能达到最优点,如果进行归一化了,那么等高线就是圆形的,促使SGD往原点迭代,从而导致需要迭代次数较少。

5.10 树形结构的不需要归一化的原因?

因为它们不关心变量的值,而是关心变量分布和变量之间的条件概率,如决策树,随机森林;对于树形结构,树模型的构造是通过寻找最优分裂点构成的,样本点的数值缩放不影响分裂点的位置,对树模型的结构不造成影响,
而且树模型不能进行梯度下降,因为树模型是阶跃的,阶跃是不可导的,并且求导没意义,也不需要归一化。

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

cc13186851239

觉得不错的,鼓励一下我,奥利给

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值