sklearn特征缩放之MaxAbsScaler

最新推荐文章于 2024-08-15 14:50:08 发布

原创最新推荐文章于 2024-08-15 14:50:08 发布 · 3.6k 阅读

3 ·

CC 4.0 BY-SA版权

文章标签：

#sklearn、机器学习、python

sklearn 专栏收录该内容

5 篇文章

订阅专栏

通过 MaxAbsScaler进行特征缩放

import numpy as np
import matplotlib.pyplot as plt
from sklearn import preprocessing

(一)基本的用法和示例
MaxAbsScaler 类与 MinMaxScaler 非常类似但是其是通过
对每个feature样本÷该feature中的最大值将其feature中的样
客写的太罗嗦了，如果对于一个函数解释的过于详细，那么
可能我们会浪费大量的时间，我们学习某个功能直接了解其
最基本的功能即可和基本的用法，其用法总结如下：
1.构造分类器 scaler = preprocessing.MaxAbsScaler()
2.初始化分类器
3.数据缩放
不少情况下2、3可以一起操作
X_trian_maxabs = max_abs_scaler.fit_transform(X_train),但
是通常情况下也可以先fit然后再transform，具体可以查阅类Class MaxAbsScaler

#Tesr data
X_train = np.array([[1., -1., 2.], [2., 0., 0.], [0., 1., -1.],])
#Construction of scaler
max_abs_scaler = preprocessing.MaxAbsScaler()
#Initialize the scaler and scale the X_train data
X_train_maxabs = max_abs_scaler.fit_transform(X_train)
print('X_train_maxabs', X_train_maxabs)

X_train_maxabs [[ 0.5 -1.   1. ]
 [ 1.   0.   0. ]
 [ 0.   1.  -0.5]]

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

UCAS_Ph.D_Des

关注关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

特征缩放与无量纲化在机器学习中是十分重要的。本篇文章将向大家介绍最大绝对值缩放（MaxAbsScaler）的理论和实现，以及在Python中的应用。

持续更新

06-02

251

需要注意的是，MaxAbsScaler只适用于已经缩放到特定范围内的数据，而不是适用于所有数据。特征缩放是指将数据集中的所有特征数据按比例缩放到一个特定的范围内，以便更好地适用于机器学习算法中。而最大绝对值缩放即是一种使特征矩阵中的数据缩放到[-1,1]之间的方法。总之，MaxAbsScaler是一种简单且易于实现的特征缩放方法，在机器学习中应用广泛。通过上述代码可以看出，使用MaxAbsScaler对数据进行了缩放处理，使得数据矩阵中的每个数都在[-1,1]之间。

特征缩放与无量纲化：最大绝对值缩放（Python 实现）

CyberLynxO的博客

09-04

377

在特征缩放过程中，我们对原始数据进行转换，以确保特征具有相似的尺度。本文将介绍特征缩放的一种方法：最大绝对值缩放，并提供使用Python实现的源代码。最大绝对值缩放（Max Abs Scaler）是一种无量纲化方法，它将特征缩放到[-1, 1]的范围内，同时保留了数据的分布形状。最大绝对值缩放是特征缩放的一种方法，可以将特征缩放到[-1, 1]的范围内，保留数据的分布形状。从输出结果可以看出，每个特征的值都被缩放到了[-1, 1]的范围内，并且保留了原始数据的分布形状。最后，我们打印输出缩放后的数据。

参与评论您还未登录，请先登录后发表或查看评论

Spark MLlib 特征工程系列—特征转换MaxAbsScaler

2401_84052244的博客

08-15

3662

是一种线性缩放工具，它将每个特征值除以其在该列中的最大绝对值，使得数据被缩放到 [-1, 1] 之间。这种方法适用于稀疏数据集（如文本数据、图像数据等），因为它不会改变数据的稀疏性。xscaledx∣xmax∣xscaled∣xmax∣xxxx是原始特征值。xmaxxmax是该特征列中最大绝对值。是一种基于最大绝对值的缩放方法，将数据缩放到 [-1, 1] 范围内。

Scikit-learn 数据预处理之最大绝对值MaxAbsScaler

数据科学汇集

01-12

1702

Scikit-learn 数据预处理之最大绝对值MaxAbsScaler 1 声明本文的数据来自网络，部分代码也有所参照，这里做了注释和延伸，旨在技术交流，如有冒犯之处请联系博主及时处理。 2 MaxAbsScaler简介。 MaxAbsScaler根据最大值的绝对值进行标准化。假设某列原数据为x，则新数据为x/|max|。应用场景：应用于稀疏矩阵。 3 MaxAbsScaler import pandas a...

sklearn.preprocessing.MaxAbsScaler

weixin_41798592的博客

09-21

1728

sklearn.preprocessing.MaxAbsScaler sklearn.preprocessing.MaxAbsScaler(copy=True) 通过其最大绝对值缩放每个特征,也就是每个属性除以其所在属性列的最大值。它不会移动/居中数据，因此不会破坏任何稀疏性。 Parameters(参数): copy : boolean, optional, default is True 是否...

Spark ML机器学习：绝对值最大标准化-MaxAbsScaler

大模型大数据攻城狮的专栏

02-14

3892

数据归一化，以房价预测为案例，房价(y)通常与离市中心距离(x1)、面积(x2)、楼层(x3)有关，设y=ax1+bx2+cx3，那么abc就是我们需要重点解决的参数。但是有个问题，面积一般数值是比较大的，100平甚至更多，而距离一般都是几公里而已，b参数只要一点变化都能对房价产生巨大影响，而a的变化对房价的影响相对就小很多了。显然这会影响最终的准确性，毕竟距离可是个非常大的影响因素啊。所以, ...

Pyspark特征工程--MaxAbsScaler

weixin_46408961的博客

03-09

395

MaxAbsScaler class pyspark.ml.feature.MaxAbsScaler(inputCol=None, outputCol=None) 通过除以每个特征中的最大绝对值，将每个特征单独重新缩放到范围 [-1, 1]。它不会移动/居中数据，因此不会破坏任何稀疏性 01.初始化 from pyspark.sql import SparkSession spark = SparkSession.builder.config("spark.Driver.host","192.168.1.4

特征缩放的秘籍：sklearn中的数据标准化技术

2401_85702623的博客

07-31

685

特征缩放是机器学习中不可或缺的数据预处理步骤。通过使用sklearn提供的特征缩放方法，我们可以有效地调整数据的尺度，提高模型的性能和稳定性。本文的介绍和代码示例为读者提供了一种系统的方法来理解和应用特征缩放技术。在实际应用中，合理地选择和使用特征缩放方法对于提高模型的泛化能力和避免过拟合具有重要意义。随着机器学习技术的不断发展，特征缩放将继续在数据预处理中发挥重要作用。

层次特征的尺度艺术：sklearn中的缩放技术

2401_85743969的博客

07-30

541

在机器学习中，特征缩放（Feature Scaling）是数据预处理的重要步骤，尤其对于基于距离的算法，如K-近邻（KNN）和支持向量机（SVM）。对于具有层次结构的数据，如文本数据或分类标签，特征缩放需要特别的方法来保持数据的内在结构。本文将详细介绍如何在sklearn中进行分层特征的缩放，并提供详细的代码示例。分层特征的缩放是数据预处理中的重要环节。通过本文的介绍，你应该对如何在sklearn中进行分层特征缩放有了深入的理解。特征缩放是将数据调整到一个统一的尺度，以消除不同量纲和数值范围的影响。

sk-learn 特征数据预处理方式汇总

Python技术探索

03-31

1413

数据集预处理技术 ### sklearn的数据预处理操作分类 (1) Feature Extract ①　Load features from dict ②　文件特征化 (2) Preprocessing Data ①　Standalizaiton , scaling ②　Normalization ③　Encoding categorical features ④　Discretization ⑤　Custom transformers (3) Imputation of missing val

sklearn中数据预处理之数据缩放和归一化

weixin_45412497的博客

07-08

821

在机器学习中进行模型训练之前可能还需要对特征进行缩放，sklearn的preprocessing模块就提供了相关的一些函数来实现这个功能。 1. MaxAbsScaler 下面是使用MaxAbsScaler函数来进行特征缩放，x1 = x/|max(x)|，用原来的特征数据除以那一维度特征最大值的绝对值，将原来的特征缩放至[-1,1]。 import numpy as np from sklearn import svm, preprocessing X_train = np.array([[1., -1

数据变换方法: 初值化、均值化、百分比/倍数变换、归一化、极差最大值化、区间值化： MinMaxScaler、StandardScaler、MaxAbsScaler

冷月无声的博客

04-20

2万+

目录数据变换的目的数据变换的七种常见方式初值化变换均值化变换百分比变换倍数变换归一化变换极差最大值化变换区间值化变换 1. matlab ...

深度学习中常见的四种数据标准化方法详细解读（StandardScaler、MinMaxScaler、RobustScaler、MaxAbsScaler）

Next_SummerAgain的博客

08-05

3447

最近，本人在优化深度神经网络模型时发现为了减少预测标签值和真实标签值之间差距，不仅仅需提高模型本身的性能，还关乎于标签值标准化、数据集划分、模型超参数等一系列初始设定。其中后两项的实验内容俗称“炼丹”，很多研究人员已经炉火丹青，运筹帷幄，唯独标签值标准化容易被人忽略。一个优秀的标准化方法不仅能提高模型训练的稳定性，加速收敛，还能增强模型测试性能，可谓是中流砥柱。现有模型训练大多默认选用 StandardScaler()，这本没错，但是如果能够参考标签值分布尝试其他方法，并修改为适合的激活函数。

数据归一化 - MinMaxScaler()/MaxAbsScaler() - Python代码

最新发布

03-21

<think>好的，我现在需要回答用户的问题：“对稀疏数据优先使用MaxAbsScaler”。首先，我要理解用户的问题到底在问什么。用户可能是在数据处理或机器学习的数据预处理阶段遇到了问题，想知道为什么在处理稀疏数据时应该优先选择MaxAbsScaler而不是其他标准化方法，比如MinMaxScaler或者StandardScaler。首先，我需要回忆一下稀疏数据的特点。稀疏数据通常指的是数据矩阵中有大量的零元素，非零元素占比较少。比如，经过独热编码后的数据就是一个典型的稀疏矩阵。这种情况下，数据维度可能很高，但大部分位置都是零。处理这样的数据时，保持其稀疏性是很重要的，因为转换成密集矩阵会占用大量内存，计算效率也会降低。接下来，我需要了解MaxAbsScaler的工作原理。MaxAbsScaler是scikit-learn中的一个数据预处理工具，它通过每个特征的最大绝对值来缩放数据。具体来说，每个特征的值会被除以该特征的最大绝对值，使得数据范围落在[-1, 1]之间。这种方法的一个特点是它不会移动/平移数据，也就是不会改变数据的中心点（均值），只是进行缩放。这对于稀疏数据来说非常重要，因为平移操作可能会将大量的零值转换为非零值，从而破坏数据的稀疏性。现在，我需要比较其他常见的标准化方法，如StandardScaler和MinMaxScaler，看看它们在处理稀疏数据时可能存在的问题。StandardScaler通过减去均值然后除以标准差来标准化数据，这会导致数据的均值为0，标准差为1。然而，减去均值会将数据平移，这会导致原本为零的值变成非零，从而增加数据的密度，破坏稀疏性。这对于高维稀疏数据来说是不可取的，因为会导致内存使用激增，计算效率下降。 MinMaxScaler则是将数据缩放到一个指定的范围（通常是[0, 1]），通过减去最小值然后除以范围（最大值减最小值）。同样，减去最小值也会导致数据平移，从而破坏稀疏性。此外，如果某个特征的最小值为0（这在稀疏数据中很常见，因为很多特征可能大部分时间都是0），那么MinMaxScaler可能不会带来太大问题，但如果最小值不是0，同样会导致零值变为非零。因此，MaxAbsScaler的优势在于它仅进行缩放而不进行平移，保持零值的位置不变，从而维持了数据的稀疏结构。这对于保持计算效率和内存使用非常关键，尤其是在处理高维稀疏数据时。接下来，我需要验证这个理解是否正确。查阅scikit-learn的官方文档，可以看到MaxAbsScaler确实被推荐用于稀疏数据，因为它不会破坏数据的稀疏性。而StandardScaler和MinMaxScaler在处理稀疏数据时，如果设置了with_mean=True（默认值），就会进行中心化，导致数据变得密集。虽然在某些情况下可以通过设置with_mean=False来避免中心化，但这可能不符合标准化方法的初衷。此外，还需要考虑实际应用中的例子。例如，在文本处理中使用TF-IDF向量化后的数据通常是稀疏的，使用MaxAbsScaler可以在不增加内存消耗的情况下进行特征缩放，而使用其他方法可能导致内存不足或计算速度大幅下降。不过，可能还存在一些特殊情况或例外情况需要考虑。例如，如果稀疏数据中存在大量的离群值，MaxAbsScaler可能会受到这些离群值的影响，因为它基于最大值进行缩放。这时候可能需要其他处理方法，比如RobustScaler，但它同样涉及到中心化和缩放，可能不适合稀疏数据。因此，在处理稀疏数据时，需要权衡不同的缩放方法及其影响。总结一下，用户的问题“对稀疏数据优先使用MaxAbsScaler”的核心原因在于MaxAbsScaler在缩放过程中不进行数据平移，保持了稀疏数据的结构，避免了内存和计算资源的浪费。而其他常见的标准化方法由于涉及中心化（平移）操作，会导致稀疏数据变得密集，从而引发效率和内存问题。</think>--- ### **一、直接结论** **是的，对稀疏数据优先使用 `MaxAbsScaler`**。其核心优势在于不破坏稀疏结构（保持零值不变），同时避免因中心化（如均值平移）导致内存爆炸和计算效率下降。 --- ### **二、稀疏数据的特点与挑战** #### 1. **稀疏数据的本质** - 矩阵中**零元素占比极高**（如独热编码、TF-IDF向量化后的数据）； - 典型结构： $$ \begin{bmatrix} 0 & 1 & 0 & 0 \\ 0 & 0 & 0 & 1 \\ 1 & 0 & 0 & 0 \\ \end{bmatrix} $$ - 高维特征（如文本分类中的词表维度可达 $10^6$ 级）。 #### 2. **关键需求** - **保持稀疏性**：避免将零值转换为非零值； - **内存高效**：防止因数据密集化导致存储开销剧增； - **计算高效**：支持稀疏矩阵的快速运算。 --- ### **三、MaxAbsScaler 的核心原理** #### 1. **数学定义** - 对每个特征列独立操作，缩放公式为： $$ x_{\text{scaled}} = \frac{x}{|x_{\text{max}}|} $$ 其中 $|x_{\text{max}}|$ 是该特征列的**最大绝对值**。 - **结果范围**：$[-1, 1]$。 #### 2. **稀疏兼容性** - **无平移操作**：仅缩放，不改变零值位置； - **保留稀疏结构**：零元素仍为 $0$，非零元素按比例压缩； - **示例**：原始稀疏特征值 $[0, -3, 0, 2]$，缩放后为 $[0, -1, 0, 0.666]$。 --- ### **四、对比其他Scaler的局限性** #### 1. **StandardScaler（标准化）** - **公式**： $$ x_{\text{scaled}} = \frac{x - \mu}{\sigma} $$ - **问题**： - 计算均值 $\mu$ 时，零值参与计算，导致非零值被稀释； - 平移操作（$- \mu$）会将零值变为非零，破坏稀疏性； - **数据变化示例**：原始 $[0, 0, 5, 0]$ → 均值 $\mu=1.25$ → 缩放后 $[-0.25, -0.25, 3.75, -0.25]$（所有零值变为非零）。 #### 2. **MinMaxScaler（归一化）** - **公式**： $$ x_{\text{scaled}} = \frac{x - x_{\text{min}}}{x_{\text{max}} - x_{\text{min}}} $$ - **问题**： - 平移操作（$-x_{\text{min}}$）同样破坏稀疏性； - 若 $x_{\text{min}} \neq 0$（如负值特征），零值被转换为非零值； - **数据变化示例**：原始 $[0, 0, 5, 0]$ → $x_{\text{min}}=0$，$x_{\text{max}}=5$ → 缩放后 $[0, 0, 1, 0]$（此时未破坏稀疏性，但若存在负值则失效）。 #### 3. **核心区别总结** | Scaler | 是否平移数据 | 是否保持稀疏性 | 适用场景 | |------------------|--------------|----------------|----------------------| | MaxAbsScaler | 否 | 是 | 稀疏数据、含负值特征 | | StandardScaler | 是 | 否 | 密集数据、正态分布 | | MinMaxScaler | 是（可能） | 否（通常） | 密集数据、固定范围 | --- ### **五、实际应用验证** #### 1. **Python代码示例** ```python from sklearn.preprocessing import MaxAbsScaler import scipy.sparse as sp # 创建稀疏矩阵（CSR格式） X_sparse = sp.csr_matrix([[0, -3, 0], [0, 0, 2], [1, 0, 0]]) # 使用MaxAbsScaler scaler = MaxAbsScaler() X_scaled = scaler.fit_transform(X_sparse) print("缩放后矩阵（仍为稀疏格式）：\n", X_scaled.toarray()) print("各列最大绝对值：", scaler.max_abs_) ``` **输出**： ``` 缩放后矩阵（仍为稀疏格式）： [[ 0. -1. 0. ] [ 0. 0. 1. ] [ 1. 0. 0. ]] 各列最大绝对值： [1. 3. 2.] ``` #### 2. **内存占用对比** | 数据形态 | 原始稀疏矩阵 | 经StandardScaler处理 | 经MaxAbsScaler处理 | |-------------------|--------------|-----------------------|---------------------| | 存储格式 | CSR | 密集矩阵 | CSR | | 内存占用（示例） | 10MB | 1GB | 10MB | --- ### **六、使用场景与注意事项** #### 1. **推荐场景** - **文本分类**：TF-IDF向量化后的稀疏词袋矩阵； - **推荐系统**：用户-物品交互矩阵（大量零交互记录）； - **高维分类特征**：独热编码后的类别特征。 #### 2. **注意事项** - **离群值敏感**：若某特征存在极端值（如 $|x|=1000$），缩放后其他值会被压缩到接近 $0$； - **负值处理**：MaxAbsScaler可处理含负值的稀疏数据（如情感分析中的词频统计）； - **与模型兼容性**：树模型（如XGBoost）对缩放不敏感，但线性模型（如逻辑回归）依赖特征缩放。 --- ### **七、替代方案** 1. **稀疏数据不缩放** - 部分算法（如朴素贝叶斯）对特征尺度不敏感，可直接使用原始稀疏矩阵。 2. **哈希分桶（Hashing Trick）** - 在特征编码阶段限制维度，间接降低后续缩放的计算压力。 3. **自定义稀疏缩放器** - 针对业务需求实现仅对非零值缩放的逻辑（需谨慎验证数学合理性）。 --- **总结**：`MaxAbsScaler` 是处理稀疏数据的首选缩放器，通过避免平移操作保留稀疏性，同时提供高效的内存和计算性能。在实际工程中，应始终优先检查数据稀疏性，并根据算法需求选择合适的预处理方法。