数据标准化 数据归一化 数据预处理 data normalization / scale

数据预处理在机器学习和深度学习中至关重要,其中数据归一化和标准化是常用方法。归一化使数据落入0-1或-1-1区间,有助于神经网络激活函数的处理。本文介绍了最小最大值标准化(MinMaxScale)和MaxAbsScaler两种归一化方法,以及z-score标准化,强调了它们在优化模型性能中的作用。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、数据归一化的好处:

数据标准化和归一化的区别和联系:
在进行处理数据的时候,标准化的方法是比较多的,其中数据归一化是一种常见的数据的标准化,只不过标准化只是将数据进行规范到一个范围之内,对于数据的归一化来说,是将数据规范到0到1之间或者是-1到1之间。

在使用机器学习或者深度学习的模型的时候,数据预处理的阶段是十分重要的,我们在进行处理的时候,包括缺失值处理、异常值处理、重复值处理等很多方面,当然,数据标准化也是一个很重要的方面,数据标准化即将数据标准化到0到1之间,或者是-1到1之间。对于深度学习来说,这样可以使我们的数据和神经网络的激活函数处理之后的数据的取值的范围对应。
另外,关于归一化的好处,可以参考这个博客,讲的比较清楚:
http://blog.csdn.net/pipisorry/article/details/52247379

二、数据归一化的方法:

1、 最小最大值标准化 MinMaxScale,将数据规范到0-1之间

原理:
假设已知样本中的data为Xi,其中最小值和最大值分别为min和max,则在进行计算的时候,我们需要使用X_std =(Xi-min)/(max-min), 结果 = X_std* (max - min) + min来进行计算标准化之后的结果。
代码:
MinMaxScaler可以参考:

蛋白质组学质谱数据预处理归一化数据分析的关键步骤,用于减少技术变异并提高生物信号的准确性。以下是常用的预处理归一化方法: - **背景扣除与峰检测** 在质谱数据中,首先需要进行背景扣除以去除仪器噪声。通过算法识别真实的肽段信号峰,并排除随机波动的影响。常见的方法包括移动窗口平滑、小波变换或基于统计模型的噪声估计。 - **峰对齐与校正** 不同样本之间的质谱峰可能会出现微小的偏移,因此需要进行保留时间(RT)和质荷比(m/z)的对齐。常用的方法包括动态时间规整(DTW)和基于参考样本的对齐策略。 - **缺失值填补** 蛋白质组数据常存在缺失值,可能由于某些肽段未被检测到或强度过低。可采用KNN(K近邻)、随机森林或基于插值的方法填补缺失值,以保证后续分析的完整性。 - **总离子流(TIC)归一化** 总离子流归一化是一种全局缩放方法,将每个样本的总离子强度调整为一致值。该方法假设所有蛋白的整体表达水平不变,适用于样本间加载量差异较大的情况。公式如下: $$I_{normalized} = \frac{I_{original}}{\sum I_{total}}$$ - **局部回归归一化(如LOESS或LOWESS)** 针对不同蛋白表达量变趋势不一致的情况,可使用局部加权回归方法对数据进行校正。该方法在二维散点图上对每个点拟合局部回归线,并调整其值使其符合整体趋势。 - **分位数归一化(Quantile Normalization)** 分位数归一化假设各组样本的表达分布应相似,通过将所有样本的强度分布调整为相同分布来消除系统偏差。该方法广泛应用于芯片数据,也可用于质谱定量结果。 - **中位数中心与Z-score标准化** 对于多组比较实验,常采用中位数中心(Median Centering)减去每组数据的中位数,再结合Z-score标准化使数据服从标准正态分布。Z-score计算公式为: $$Z = \frac{X - \mu}{\sigma}$$ 其中 $X$ 是原始值,$\mu$ 是均值,$\sigma$ 是标准差。 - **批次效应校正(如ComBat)** 若数据来自不同批次或实验室,需使用批次效应校正方法。ComBat 是一种贝叶斯框架下的方法,可在考虑协变量的前提下校正批次影响。 ```python # 示例:使用scikit-learn进行Z-score标准化 from sklearn.preprocessing import scale import numpy as np data = np.array([[10, 20, 30], [15, 25, 35], [20, 30, 40]]) scaled_data = scale(data) print(scaled_data) ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值