归一化(normalization)、标准化(standarization)
在机器学习领域,不同的评价指标(及特征向量中的不同特征就是所描述的不同评价指标),往往具有不同的量纲和量纲单位,这样的情况会影响到数据分析的结果,为了消除指标之间的量纲影响,需要进行数据的标准化处理,已解决数据指标之间的可比性。原始数据经过数据标准化处理之后,各指标处于同一数量级,适合进行综合对比评价。
量纲影响举例:比如两个人体重差10KG,身高差0.02M,在衡量两个人的差别时体重的差距会把身高的差距完全掩盖,标准化之后就不会有这样的问题。
1 、归一化:通过对原始数据进行线性变换,把数据映射到[0,1]之间。(Min-Max Normalization)
特点:
1、对不同的特征维度进行伸缩变换,将数据变成[0,1]之间的数,方便数据处理,快速便捷
2、改变了原始数据的分布,使各个特征维度对目标函数的影响权重是一致的(即使得那些扁平分布的数据伸缩变换成类圆形)
3、对目标函数的影响体现在数值上
4、无量纲化处理:把有量纲表达式变成无量纲表达式
好处:
1、提高迭代求解的收敛速度
如下图,x1的取值为0-2000,而x2的取值为1-5,假如只有这两个特征,对其进行优化时,会得到一个窄长的椭圆形,导致在梯度下降时,梯度的方向为垂直等高线的方向而走之字形路线,这样会使迭代很慢。
相比之下,进行归一化处理之后,右图的迭代就会很快(理解:也就是步长走多走少方向总是对的,不会走偏,少走很多弯路)