目的
什么是数据归一化,一接触真得是感觉有些不明白,看看资料上定义如下:
简化计算的方式
归一化方法有两种形式,一种是把数变为(0,1)之间的小数,一种是把有量纲表达式变为无量纲表达式。
主要是为了数据处理方便提出来的,把数据映射到0~1范围之内处理,更加便捷快速,应该归到数字信号处理范畴之内。
归一化具体介绍
归一化算法公式
归一化算法公式根据应用场景和计算目标的不同可分为三种常见类型,包括一般归一化法、校正面积归一化法以及数据标准化处理公式。这些方法的核心目标均是通过数学变换将原始数据转化为特定范围内的数值,但具体实现方式和适用条件存在差异。
一、一般归一化法(这里加粗,重点说明这里)
一般归一化法用于计算多组分体系中各成分的百分比含量。其公式为:
Xi% = [Ai / (A1 + A2 + … + An)] × 100
其中,Xi%表示组分i的百分含量,Ai为组分i的原始数值(如峰面积、浓度等),分母A1+A2+…+An为所有组分数值之和。
该方法假设各组分检测响应因子相近,适用于化学成分分析、光谱数据处理等场景。例如,在色谱分析中,若各物质的峰面积与其浓度成比例且比例系数相同,可直接使用此公式计算相对含量。
二、校正面积归一化法
校正面积归一化法在一般归一化法基础上引入了校正因子,用于消除不同组分检测响应差异的影响。其公式为:
Xi% = [Ai·Fi / (A1·F1 + A2·F2 + … + An·Fn)] × 100
式中,Fi为组分i的相对校正因子,其他参数含义与一般归一化法一致。
此方法适用于仪器检测中各组分的响应因子存在显著差异的情况。例如,在气相色谱分析中,不同物质在同一检测器上的响应程度不同,需通过已知标准物质测定Fi值后,用该公式校正计算结果,以提高定量分析的准确性。
三、数据标准化处理公式
数据标准化处理旨在消除量纲差异,使数据符合均值为0、标准差为1的分布。公式表达为:
x’ = (x - μ) / σ
其中,μ为数据序列的均值向量,σ为标准差向量,x为原始输入序列,x’为归一化后的序列。
该公式广泛应用于机器学习和统计分析领域,例如在神经网络训练前对输入特征进行标准化,可加速模型收敛。其数学本质是通过线性变换将数据映射到标准正态分布空间,适用于需要消除量纲影响的多元数据分析场景。
DeepSeek的理解
归一化法详解
归一化计算公式
归一化是将数据按比例缩放,使之落入一个小的特定区间。最常用的归一化方法有两种:
Min-Max归一化(线性归一化):
X’ = (X - X_min) / (X_max - X_min)
结果范围:[0, 1]
Z-Score标准化(标准差归一化):
X’ = (X - μ) / σ
其中μ是均值,σ是标准差
常用场景
机器学习:特征缩放,使不同特征具有可比性
数据挖掘:数据预处理,提高算法收敛速度
图像处理:像素值归一化
信号处理:信号幅度归一化
推荐系统:用户评分归一化
示例说明
假设有一组数据:[1.0, 2.0, 3.0, 4.0, 5.0]
Min-Max归一化:
最小值=1.0,最大值=5.0
归一化结果:[0.0, 0.25, 0.5, 0.75, 1.0]
Z-Score标准化:
均值=3.0,标准差≈1.4142
标准化结果:[-1.4142, -0.7071, 0.0, 0.7071, 1.4142]
这个举例实现包含了两种常用的归一化方法,可以直接用于数据预处理任务。
个人理解
归一化介绍里面说的更为接近现实情况,而deepSeek的回答则是理论化,专业化更重。
我们是解决现实问题,所以侧重理解归一化介绍里面的内容。
根据个人的经历,一般归一化,用的更多,也更有实用价值,归一化,就是把数据放到一个区间,目的为了消除量纲差异。
然而,一般归一化,目的不仅如此,还有非常有价值的地方,就是求出每一个数的百分比,而且每一个数的比例值,与另一组数的比例是成比例的,以此,可以推测出另一组的值,这就是一般归一化的价值之处。
举一个例子:
这一个例子,真不太好举,只能假设一个了。
全校200人,5班的学生,一共50人,假设学习思考的时间越长,考试分数越高,是成正比例的关系,100个小时的思考时间,考分是150分,1个小时的思考时间,考分是1.5分。
已知学生的学习思考时间如下:
求全校考试分数这些人?
怎么求,就是利用一般归一化公式:Xi% = [Ai / (A1 + A2 + … + An)] × 100
下面就编程实现这一过程
实现过程
代码情况:
#include <QCoreApplication>
#include</