数据预处理之标准化(Standardization)、归一化(Normalization)、中心化/零均值化(Zero-centered)

elroye

于 2018-12-11 10:56:37 发布

阅读量2.9w

点赞数 19

CC 4.0 BY-SA版权

分类专栏：数据预处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u012720552/article/details/84950936

数据预处理中的标准化、归一化和中心化是重要的步骤，旨在消除量纲影响，平衡特征贡献，解决数值问题，并加速模型训练。标准化使数据符合标准正态分布，归一化则将数据映射到特定区间，而中心化则让数据平均值为0。常见的方法包括Min-Max归一化、Z-score标准化和简单减去平均值的中心化。不同场景下选择合适的方法，如SVM、KNN和神经网络中常应用这些技术。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、数据标准化的意义：

1、数据的量纲不同；数量级差别很大

经过标准化处理后，原始数据转化为无量纲化指标测评值，各指标值处于同一数量级别，可进行综合测评分析。

如果直接用原始指标值进行分析，就会突出数值较高的指标在综合分析中的作用，相对削弱数值水平较低指标的作用。

2、避免数值问题：太大的数会引发数值问题。

3、平衡各特征的贡献

一些分类器需要计算样本之间的距离（如欧氏距离），例如KNN。

如果一个特征值域范围非常大，那么距离计算就主要取决于这个特征，从而与实际情况相悖（比如这时实际情况是值域范围小的特征更重要）。

4、一些模型求解的需要：加快了梯度下降求最优解的速度

二、方法

归一化：

１）把数据变成(０,１)或者（1,1）之间的小数。主要是为了数据处理方便提出来的，把数据映射到0～1范围之内处理，更加便捷快速。
２）把有量纲表达式变成无量纲表达式，便于不同单位或量级的指标能够进行比较和加权。归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。

常用方法：

（1）Min-Max Normalization
x' = (x - X_min) / (X_max - X_min)

（2）平均归一化
x' = (x - μ) / (MaxValue - MinValue)
（1）和（2）有一个缺陷就是当有新数据加入时，可能导致max和min的变化，需要重新定义。

（3）非线性归一化
1）对数函数转换：y = log10(x)
2）反余切函数转换：y = atan(x) * 2 / π
（3）经常用在数据分化比较大的场景，有些数值很大，有些很小。通过一些数学函数，将原始值进行映射。该方法包括 log、指数，正切等。需要根据数据分布的情况，决定非线性函数的曲线，比如log(V, 2)还是log(V, 10)等。

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。