机器学习：特征工程之数据处理_特征处理中身高体重处理方法-CSDN博客

本文链接：https://blog.csdn.net/condi1997/article/details/105466285

本文介绍了机器学习中数据预处理的重要步骤，包括归一化、标准化和缺失值处理。归一化是将数据映射到[0,1]区间，标准化则使数据均值为0，方差为1，减少异常值的影响。对于缺失值，可以通过删除或插补方法处理。sklearn库提供了预处理工具，如MinMaxScaler和StandardScaler进行数值缩放，以及Imputer进行缺失值填充。" 117334395,8523322,JVM对象内存分配与回收详解,"['java', 'jvm', '内存管理', '垃圾回收']

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

第一部分：数据特征预处理

特征处理：通过特定的统计方法（数学方法）将数据转换成算法要求的数据。
数值型数据：标准缩放(归一化、标准化)、缺失值处理
类别型数据：one-hot编码
时间类型：时间的切分
sklearn.preprocessing模块提供了一些数据预处理API

一.归一化

1.目的
在特征（维度）非常多的时候，可以防止某一维或某几维对数据影响过大，把不同来源的数据统一到一个参考区间下，使得不同数值范围的数据变得同等重要，预测结果更有意义。
例如：一个人的身高和体重两个特征，假如体重50kg，身高175cm,由于两个单位不一样，数值大小不一样。如果比较两个人的体型差距时，那么身高的影响结果会比较大。
2.原理
通过对原始数据进行线性变换把数据映射到[min,max]之间，通常取[0,1]：
在这里插入图片描述
3.代码
1)普通归一化

def feature_normal(data_set)
    #特征归一化
    min_vals = data_set.min(0)
    max_vals = data_set.max(0)
    ranges = max_vals - min_vals
    norm_data = np.zeros(np.shape(data_set))
    # 得出行数
    m = data_set.shape[0]
    # 复制min_vals，行数乘m，再进行矩阵相减
    norm_data = data_set - np.tile(min_vals, (m,1))
    # 复制ranges，行数乘m，再进行矩阵相除
    norm_data = norm_data/np.tile(ranges, (m, 1)))
    return norm_data

2)调用sklearn.preprocessing.MinMaxScaler
MinMaxScaler(feature_range=(min,max))----每个特征缩放到给定范围(默认[0,1])；
MinMaxScaler.fit_transform(X)----返回转换后的array，X:numpy array格式的数据[n_samples,n_features]。

>>> from sklearn.preprocessing import MinMaxScaler
>>