用sklearn.preprocessing做数据预处理（二）——Normalization

最新推荐文章于 2025-03-16 11:13:33 发布

又要起名字了

最新推荐文章于 2025-03-16 11:13:33 发布

阅读量3.3k

点赞数

CC 4.0 BY-SA版权

分类专栏：数据预处理文章标签： sklearn.preprocessing 数据预处理

本文链接：https://blog.csdn.net/weixin_44530236/article/details/88077395

本文介绍了如何利用sklearn.preprocessing库进行数据预处理的正则化操作，包括l1和l2正则化。通过示例展示了normalize函数和Normalizer类的使用方法，适用于稠密和稀疏矩阵的数据处理。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

Normalization（正则化，也有部分地方叫归一化，至于哪个翻译更准确这里不做讨论，暂且称作正则化）是将样本在向量空间模型上的一个转换，经常被使用在分类与聚类中
函数normalize提供了一个快速又简单的方式在一个单向量上来实现这正则化的功能。正则化有l1，l2等，这些都可以用上

from sklearn import preprocessing
import numpy as np

x = np.array([[1.,-1.,2.],
[2.,0.,0.],
[0.,1.,-1.]])

x_normalized = preprocessing.normalize(x, norm='l2')
x_normalized

array([[ 0.40824829, -0.40824829,  0.81649658],
       [ 1.        ,  0.        ,  0.        ],
       [ 0.        ,  0.70710678, -0.70710678]])

x_normalized = preprocessing.normalize(x, norm='l1')
x_normalized

array([[ 0.25, -0.25,  0.5 ],
       [ 1.  ,  0.  ,  0.  ],
       [ 0.  ,  0.5 , -0.5 ]])

preprocessing这个模块还提供了一个实用类Normalizer，使用transform方法同样也可以对新的数据做同样的转换
根据训练数据创建一个正则器

normalizer = preproce

最低0.47元/天解锁文章

200万优质内容无限畅学

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

又要起名字了

关注关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

sklearn.preprocessing.normalize()

chen_znn的博客

05-14

1639

本文记录了sklearn.preprocessing.normalize()的用法

sklearn.preprocessing()详解: 标准化、正则化、最小最大规范化、特征二值化

从零开始的编码生活

08-06

4620

一. 数据的标准化与归一化(zero-mean normalization): class sklearn.preprocessing.StandardScaler(*, copy=True, with_mean=True, with_std=True) 官方文档-StandardScaler standard score(z) of a sample x: z = (x - u) / s u: the mean of training samples (u = 0 if with_mean = Fal

参与评论您还未登录，请先登录后发表或查看评论

【原】关于使用sklearn进行数据预处理 —— 归一化/标准化/正则化

weixin_33949359的博客

12-09

3037

一、标准化（Z-Score），或者去除均值和方差缩放公式为：(X-mean)/std 计算时对每个属性/每列分别进行。将数据按期属性（按列进行）减去其均值，并处以其方差。得到的结果是，对于每个属性/每列来说所有数据都聚集在0附近，方差为1。实现时，有两种不同的方式：使用sklearn.preprocessing.scale()函数，可以直接将给定数据进行标准化。12345678910111213...

sklearn.preprocessing.Normalizer

每天进步一点点2017

07-13

1万+

①sklearn.preprocessing.Normalizer(norm=’l2’, copy=True) norm：可以为l1、l2或max，默认为l2 若为l1时，样本各个特征值除以各个特征值的绝对值之和若为l2时，样本各个特征值除以各个特征值的平方之和若为max时，样本各个特征值除以样本中特征值最大的值 In [7]: from sklearn import prepr

Scikit-learn Preprocessing 预处理

D.W 的专栏

10-25

4万+

本文主要是对照scikit-learn的preprocessing章节结合代码简单的回顾下预处理技术的几种方法，主要包括标准化、数据最大最小缩放处理、正则化、特征二值化和数据缺失值处理。内容比较简单，仅供参考！首先来回顾一下下面要用到的基本知识。一、知识回顾均值公式：x¯=1nΣ_i=1nxi\bar{x}=\frac{1}{n}\Sigma\_{i=1}^{n}x_{i}方差公式：s2=1nΣ_i

sklearn专题三：数据预处理

Colorfully_lu的博客

12-15

4010

目录 1 概述 1.1 数据预处理与特征工程数据挖掘的五大流程： 1.2 sklearn中的数据预处理和特征工程 2 数据预处理 Preprocessing & Impute 2.1 数据无量纲化 preprocessing.MinMaxScaler数据归一化 preprocessing.StandardScaler数据标准化 StandardScaler和MinMaxScaler选哪个？ 2.2缺失值 impute.SimpleImputer BONUS：用Pan..

机器学习——数据预处理

qq_52669357的博客

03-19

1625

数据预处理数据标准化为什么要进行标准化处理z-score标准化Min-max标准化MaxAbs标准化非线性转换映射到均匀分布映射到高斯分布归一化离散编码生成多项式数据标准化为什么要进行标准化处理为什么要对数据进行标准化? 先来看看这两组数 array1=[0.02,0.01,0.05,0.06] array2=[10000,15000,20000,11000] 现在若对数据进行处理，那会使结果不太准确，会发现array2数据的量级要比array1的大很多，因此array2对目标变量的影响会比arr

sklearn中的数据预处理和特征工程

lichengxiang的博客

03-02

620

到这里我们学习了常用的基于过滤法的特征选择，包括方差过滤，基于卡方，F检验和互信息的相关性过滤，讲解了各个过滤的原理和面临的问题，以及怎样调这些过滤类的超参数。通常来说，我会建议，先使用方差过滤，然后使用互信息法来捕捉相关性，不过了解各种各样的过滤方式也是必要的。经验来说，过滤法更快速，但更粗糙。包装法和嵌入法更精确，比较适合具体到算法去调整，但计算量比较大，运行时间长。当数据量很大的时候，优先使用方差过滤和互信息法调整，再上其他特征选择方法。使用逻辑回归时，优先使用嵌入法。

机器学习sklearn工具——sklearn中的数据预处理和特征工程

weixin_39736118的博客

01-23

734

机器学习sklearn工具——预处理

np.linalg.norm求范数函数用法以及归一化函数preprocessing.normalize()函数的使用

Legend105CC

07-18

7505

1、linalg=linear（线性）+algebra（代数），norm则表示范数。 2、函数参数 x_norm=np.linalg.norm(x, ord=None, axis=None, keepdims=False) （1）x: 表示矩阵（也可以是一维）（2）ord：范数类型（3）axis：行向量处理或列向量处理矩阵的范数： ord=1：列和的最大值 ord=2：|λE-ATA|=0，求特征值，然后求最大特征值得算术平方根(matlab在线版，计算ans=ATA，[x,y]=.

sklearn库Preprocessing and Normalization预处理方法及API使用

公众号：瑞行AI

04-16

5684

sklearn.preprocessing.Binarizer(threshold=0.0, copy=True) 根据阈值，进行特征二值化映射 threshold:阈值，默认是0，大于阈值映射为1，小于阈值映射为0；在稀疏矩阵中，该阈值参数一般不会小于0 copy:当二值化前的输入是scipy的csr格式时,二值化后的输出是否在内存中占用原位置(default True是新开辟位置...

预处理数据的方法总结（使用sklearn-preprocessing）

热门推荐

【人工智能】王小草的博客

12-02

9万+

预处理数1. 标准化：去均值，方差规模化Standardization标准化:将特征数据的分布调整成标准正太分布，也叫高斯分布，也就是使得数据的均值维0，方差为1.标准化的原因在于如果有些特征的方差过大，则会主导目标函数从而使参数估计器无法正确地去学习其他特征。标准化的过程为两步：去均值的中心化（均值变为0）；方差的规模化（方差变为1）。在sklearn.preprocessing中提供了一个sca

sklearn的归一化函数normalize

qq_31225201的博客

03-15

6854

理论解释对于p-范数，对于x向量：向量x的p-范数为：因此，可得到L0、L1、L2范数分别为： L0范数是指向量中非0的元素的个数 L1范数是指向量中各个元素绝对值之和 L2范数是指向量各元素的平方和然后求平方根（开根号） L1范数可以进行特征选择，得到稀疏矩阵，仅仅有少量值为非0，这些就是提取出来的特征。 L2范数可以防止过拟合，提升模型的泛化能力，得到的值很小，但不会到0。TiBA6K6p5oiR5a6J6Z2Z5Lya,size_20,color_FFFFFF,t_70,g_se,x_16

sklearn.preprocessing中的StandardScaler、normalize、Normalizer和LASSO中的Normalize=True

hasy

02-01

4021

在使用以RBF为核函数的SVM时，或使用L1或L2正则化的线性模型时，通常要求各个特征具有相似的方差，否则拥有较大方差的特征将主导梯度下降的过程，从而导致无法得出真正的最优解。因此，在做之前要求对数据进行标准化，即对于每个特征（数据中的每一列）进行标准化 Xi=Xi−X¯sdX" role="presentation">Xi=Xi−X¯¯¯¯sdXXi=Xi−X¯sd

sklearn normalizer

weixin_39039514的博客

06-11

257

【代码】sklearn normalizer。

python标准化_数据标准化 (data normalization) 的原理及实现 (Python sklearn)

weixin_39631899的博客

12-03

988

原理数据正规化(data normalization)是将数据的每个样本(向量)变换为单位范数的向量，各样本之间是相互独立的．其实际上，是对向量中的每个分量值除以正规化因子．常用的正规化因子有 L1, L2 和 Max．假设，对长度为 n 的向量，其正规化因子 z 的计算公式，如下所示：注意：Max 与无穷范数不同，无穷范数是需要先对向量的所有分量取绝对值，然后取其中的最大值；而 Max 是向...

【scikit-learn】sklearn.preprocessing.Normalizer 类：对每个样本（行）进行归一化