归一化(normalization)、标准化(standarization)

归一化和标准化是数据预处理的重要步骤,分别通过线性变换将数据映射到[0,1]和均值0、方差1的范围内。归一化常用于避免大值主导优化过程,而标准化适用于涉及距离度量的算法。在分类、聚类和PCA中,标准化通常表现更好,而在不涉及距离的场景下,归一化可能更合适。非线性归一化方法如对数、反正切和L2范数归一化也在某些情况下使用。" 105022725,8753399,C++内存管理:堆栈详解与对比,"['C++', '内存管理', '堆栈']

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

归一化(normalization)、标准化(standarization)

   在机器学习领域,不同的评价指标(及特征向量中的不同特征就是所描述的不同评价指标),往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据的标准化处理,已解决数据指标之间的可比性。原始数据经过数据标准化处理之后,各指标处于同一数量级,适合进行综合对比评价。
   量纲影响举例:比如两个人体重差10KG,身高差0.02M,在衡量两个人的差别时体重的差距会把身高的差距完全掩盖,标准化之后就不会有这样的问题。

1 、归一化:通过对原始数据进行线性变换,把数据映射到[0,1]之间。(Min-Max Normalization)

特点:
1、对不同的特征维度进行伸缩变换,将数据变成[0,1]之间的数,方便数据处理,快速便捷
2、改变了原始数据的分布,使各个特征维度对目标函数的影响权重是一致的(即使得那些扁平分布的数据伸缩变换成类圆形)
3、对目标函数的影响体现在数值上
4、无量纲化处理:把有量纲表达式变成无量纲表达式

好处:
1、提高迭代求解的收敛速度
  如下图,x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢。
相比之下,进行归一化处理之后,右图的迭代就会很快(理解:也就是步长走多走少方向总是对的,不会走偏,少走很多弯路)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值