数据分析基本方法-数据归一化处理(附代码)

本文链接：https://blog.csdn.net/CSDNXXCQ/article/details/113924320

本文详细讲解了数据标准化的过程，包括找极值并利用极值实现数据归一化到[0,1]区间的技巧。重点介绍了标准化与归一化的应用目的，以及如何通过代码实现。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

数据的标准化（normalization）和归一化
数据的标准化（normalization）是将数据按比例缩放，使之落入一个小的特定区间。在一些比较和评价的指标处理中经常会用到，去除数据的单位限制，将其转化为无量纲的纯数值，便于不同单位或量级的指标能够进行比较和加权。其中最典型的就是数据的归一化处理.(将数据统一映射到[0,1]区间)

归一化的目标

1 把数变为（0，1）之间的小数
主要是为了数据处理方便而提出来的，把数据映射到0～1范围之内处理，更加便捷快速.
2 把有量纲表达式变为无量纲表达式
归一化是一种简化计算的方式，即将有量纲的表达式，经过变换，化为无量纲的表达式，成为纯量。

原理：
在这里插入图片描述

方法：
1，找到极值

def find_the_min_and_max_of_our_data(dataset):
    min_max_list = list()
    for i in range(len(dataset[0])):
        values_in_every_column = [row[i] for row in dataset]
        the_min_value = min(values_in_every_column)
        the_max_value = max(values_in_every_column)
        min_max_list.append([the_min_value, the_max_value])
    return min_max_list

2，利用极值实现归一化

def rescale_our_data(dataset, min_max_list):
    for row in dataset:
        for i in range(len(row)):
            row[i] = (row[i] - min_max_list[i][0]) / (min_max_list[i][1] - min_max_list[i][0])