sklearn.preprocessing.RobustScaler（解释和原理，分位数，四分位差）

liulangzhehwm

已于 2024-06-15 17:11:47 修改

阅读量1.1k

点赞数 6

CC 4.0 BY-SA版权

分类专栏：机器学习和数据处理文章标签： sklearn 人工智能 python

于 2024-02-27 17:16:23 首次发布

本文链接：https://blog.csdn.net/xiaiming0/article/details/135584792

本文详细介绍了sklearn.preprocessing.RobustScaler的原理，它使用百分位数进行数据缩放，不受极端值影响。通过示例展示了如何使用该工具并探讨了其在处理少量数据时可能产生的差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

提示：sklearn.preprocessing.RobustScaler（解释和原理，分位数，四分位差）

文章目录

@[TOC](文章目录)

一、RobustScaler 是什么？

二、代码

1.代码

2.输出结果

总结

提示：以下是本篇文章正文内容，下面案例可供参考

一、RobustScaler 是什么？

RobustScaler 的居中和缩放统计基于百分位数，因此不会受到少数非常大的边缘异常值的影响。
计算公式如下（具体计算公式以官网提供的代码为准）：

value_result = (value-Media)/(Q1-Q3)
Q1的位置 = 1 * （n + 1) / 4
Q3的位置 =  3 *（n + 1) / 4
n : 表示数据的个数。
media : 中位数
Q1 : 是第 1 个四分位数（第 25 个分位数）
Q3 : 第 3 个四分位数（第 75 个分位数）

在这里插入图片描述

二、代码

1.代码

import pandas as pd
from sklearn.preprocessing import RobustScaler

data = pd.DataFrame(
    {
   
        'a': [1, 2, 3, 4, 6, 5, 6],
        'b':

最低0.47元/天解锁文章

确定要放弃本次机会？

福利倒计时

: :

立减 ¥

普通VIP年卡可用

立即使用

liulangzhehwm

关注关注

6
点赞
踩
10

收藏

觉得还不错? 一键收藏
0
评论
分享

复制链接

分享到 QQ

分享到新浪微博

扫一扫
举报

举报

专栏目录

sklearn.preprocessing 标准化、归一化、正则化

Cachel Wood的博客

02-02

544

线性变换又很多良好的性质，这决定了对数据变换后的数据反而能提高数据效率。输出范围是一个特定的区间，在。就是特征中，所有数据都会除以最大值，该方法对那些已经中心化均值为0，或者稀疏的数据有意义。：如果出现异常点，由于具有一定数据量，少量的异常点对于平均值的影响并不大，从而方差改变较小。如果数据有异常值和较多噪音，用标准化，可间接通过中心化避免异常值、极端值的影响。归一化是标准化的一种，它的缩放仅与最大、最小值的差别有关；（2）在训练神经网络的过程中，通过将数据标准化，能够加速权重参数的收敛；

机器学习数据预处理preprocessing

一叶_障目

01-10

1242

它可以将一组标签集合转换为一个二进制矩阵，其中每一列代表一个可能的标签，每一行代表一个样本。用于中心化核矩阵的工具，通常用于核方法（如支持向量机和核主成分分析）中，以确保核矩阵的中心化，从而提高算法的性能。将每个类别值映射到一个从 0 到 n_classes-1 的整数，其中 n_classes 是类别的数量。设定一个阈值（threshold），对于每个输入值，如果该值大于或等于阈值，则输出 1；调整核矩阵使其行和列的均值为零，目的是消除数据的偏移，使得算法能够更好地捕捉数据的结构特征。

参与评论您还未登录，请先登录后发表或查看评论

缩放有离群值的数据 sklearn.preprocessing.RobustScaler

weixin_41798592的博客

09-24

2283

sklearn.preprocessing.RobustScaler缩放有离群值的数据 sklearn.preprocessing.RobustScaler(with_centering=True, with_scaling=True, quantile_range=(25.0, 75.0), copy=True) 使用具有鲁棒性的统计量缩放带有异常值（离群值）的数据该缩放器删除中位数，并根据百...

python sklearn.preprocessing.RobustScaler 的transform和fit_transform方法

Dontla的博客

08-20

2152

sklearn.preprocessing.RobustScaler: Init signature: RobustScaler( with_centering=True, with_scaling=True, quantile_range=(25.0, 75.0), copy=True, ) Docstring: Scale features using...

三种数据标准化方法的对比：StandardScaler、MinMaxScaler、RobustScaler

最新发布

swilder__218的博客

05-13

848

在数据预处理中，标准化是常见的步骤，常用的方法包括StandardScaler、MinMaxScaler和RobustScaler。StandardScaler通过减去均值并除以标准差进行标准化，适用于正态分布数据，但对异常值敏感。MinMaxScaler将数据缩放到固定范围（如[0,1]），适用于需要固定范围的场景，但对异常值同样敏感。RobustScaler基于中位数和四分位距进行标准化，对异常值不敏感，适用于非正态分布或含异常值的数据。选择标准化方法时，需根据数据特性和模型需求进行权衡：正态分布且无异

Python之 sklearn：sklearn中的RobustScaler 函数的简介及使用方法之详细攻略

头部AI社区如有邀博主AI主题演讲请私信—心比天高，仗剑走天涯，保持热爱，奔赴向梦想！低调，专注，谦虚，自律，反思，成长，还算比较正能量的博主，公益免费传播…内心特别想在AI界做出一些可以推进历史进程影响力的技术(兴趣使然，有点小情怀，也有点使命感呀

09-10

1万+

Python之 sklearn：sklearn中的RobustScaler 函数的简介及使用方法之详细攻略目录 sklearn中的RobustScaler 函数的简介及使用方法 sklearn中的RobustScaler 函数的简介及使用方法 class RobustScalerFound at: sklearn.preprocessing._data class RobustScaler(TransformerMixi...

python中scale函数_Python之 sklearn：sklearn中的RobustScaler 函数的简介及使用方法之详细攻略...

weixin_39737368的博客

12-03

1080

Notes-----For a comparison of the different scalers, transformers, and normalizers,see :ref:`examples/preprocessing/plot_all_scaling.py`.https://en.wikipedia.org/wiki/Medianhttps://en.wikipedia.org/w...

机器学习之数据预处理——RobustScaler

执的博客

09-12

4247

文章目录前言一、手工生成数据二、使用步骤1.引入库2.对数据进行预处理3.结果分析：前言数据预处理是机器学习中常用的处理数据的方法，这样能够让模型的训练速度得到质的提升，本文将为大家展现常用的几种数据预处理方法。一、手工生成数据 import numpy as np import matplotlib.pyplot as plt from sklearn.datasets import make_blobs X,y=make_blobs(n_samples=40,centers=2,random.

数据预处理（sklearn.preprocessing）

平凡简单的执着

03-11

1万+

前言数据预处理的工具有许多，在我看来主要有两种：pandas数据预处理和scikit-learn中的sklearn.preprocessing数据预处理。前面更新的博客中，我已有具体的根据pandas来对数据进行预处理，原文请点击这里。其中主要知识点包括一下几个方面：数据的集成：merge、concat、join、combine_first；数据类型转换：字符串处理（正则表达式）、数据类...

Scikit-learn 数据预处理之鲁棒缩放RobustScaler

数据科学汇集

01-12

3728

Scikit-learn 数据预处理之健壮缩放RobustScaler 1 声明本文的数据来自网络，部分代码也有所参照，这里做了注释和延伸，旨在技术交流，如有冒犯之处请联系博主及时处理。 2 RobustScaler简介 RobustScaler通过中位数和四分位距来缩放。使用于对异常值比较敏感的情况。应用场景：离群值较多的数据时。 3 RobustScaler import pandas as pd from skle...

【Preprocessing数据预处理】之Scaler

Hyman Qiu

03-12

494

本人就职海外从事人工智能领域开发设计。希望花时间总结下流行的机器学习算法，数据预处理是算法成功的重要因素。

RobustScaler的计算方法/原理（举例解释）

qq_43635498的博客

02-08

3238

四分位距通常是用来构建箱形图，以及对概率分布的简要图表概述。对一个对称性分布数据（其中位数必然等于第三四分位数与第一四分位数的算术平均数），二分之一的四分差等于绝对中位差（MAD）。但是scale(The (scaled) interquartile range for each feature in the training set.) 为什么是 [3,1.5,2.5]呢。其实是因为官网例子给的training set 长度为3，因此没法直接算四分位距。每列的特征中位值不难理解 [1,1,2]

RobustScaler的计算方法/原理

学者的博客

04-30

8635

scikit-learn中RobustScaler的计算方法如下：其中viv_ivi表示样本的某个值。medianmedianmedian是样本的中位数，IQRIQRIQR是样本的四分位距

ML之sklearn：sklearn的RobustScaler函数、KFold函数、cross_val_score函数的代码解释、使用方法之详细攻略

07-10

8716

ML之sklearn：sklearn的RobustScaler函数、KFold函数、cross_val_score函数的代码解释、使用方法之详细攻略目录 sklearn的RobustScaler函数的代码解释、使用方法 sklearn的KFold函数的代码解释、使用方法 sklearn的cross_val_score函数的代码解释、使用方法 sklearn的RobustScaler函数的代码解释、使用方法 RobustScaler函数的代码解释 class RobustSc

python——机器学习：sklearn数据预处理preprocessing标准化、归一化和纠偏

weixin_53848907的博客

05-31

3437

前段时间参加了一个数据建模比赛，机器学习部分主要是应用python的sklearn库，现整理一下自己当时的复习内容。整个数据建模的第一部分也是最主要的部分是数据预处理。其常规顺序（不一定全需要做）为：处理离群值、处理缺失值、标准化或归一化、纠偏、连续特征离散化、类别特征编码、特征增强和对不平衡数据集的处理（仅针对分类问题）。本篇是数据预处理中的数据标准化或归一化和纠偏部分。

机器学习实战第一步：特征选择与特征工程（使用类RobustScaler对异常值进行控制和选择分位数范围）

zzx3163967592的博客

05-27

1745

转载：https://www.toutiao.com/i6641904652575048206/?tt_from=weixin&utm_campaign=client_share&wxshare_count=1&timestamp=1590562909&app=news_article&utm_source=weixin&utm_medium=toutiao_android&use_new_style=1&req_id=202005271501

深度学习中常见的四种数据标准化方法详细解读（StandardScaler、MinMaxScaler、RobustScaler、MaxAbsScaler）

Next_SummerAgain的博客

08-05

3423

最近，本人在优化深度神经网络模型时发现为了减少预测标签值和真实标签值之间差距，不仅仅需提高模型本身的性能，还关乎于标签值标准化、数据集划分、模型超参数等一系列初始设定。其中后两项的实验内容俗称“炼丹”，很多研究人员已经炉火丹青，运筹帷幄，唯独标签值标准化容易被人忽略。一个优秀的标准化方法不仅能提高模型训练的稳定性，加速收敛，还能增强模型测试性能，可谓是中流砥柱。现有模型训练大多默认选用 StandardScaler()，这本没错，但是如果能够参考标签值分布尝试其他方法，并修改为适合的激活函数。

数据无量纲化学习（1）：三种常用数据缩放方法的对比：StandardScaler、MinMaxScaler、RobustScaler

人生是一场修行

04-03

3645

数据的无量纲化可以是线性的，也可以是非线性的。线性的无量纲化包括中心化（Zero-centered或者Mean-subtract - 缩放到均值为0，方差为1（Standardization——StandardScaler()） - 缩放到0和1之间（Standardization——MinMaxScaler()） - 缩放到-1和1之间（Standardization——MaxAbsScaler()） - 缩放到0和1之间，保留原始数据的分布（Normalization——Normalizer()）

机器学习——特征工程——数据的标准化（Z-Score,Maxmin,MaxAbs,RobustScaler,Normalizer）

热门推荐

huangguohui_123的博客

04-28

1万+

数据标准化是一个常用的数据预处理操作，目的是处理不同规模和量纲的数据，使其缩放到相同的数据区间和范围，以减少规模、特征、分布差异等对模型的影响。标准化方法公式优点缺点转换区间适用场景 Z-Score（标准化）适用大多数类型的数据，标准化之后的数据是以0为均值，方差为1的正态分布是一种中心化方法，会改变原有数据得分布结构 ...

因量纲不同

03-27

### 数据量纲不一致的解决方案在机器学习中，当数据集中的特征具有不同的单位或数量级时，可能会导致某些算法表现不佳。这是因为许多机器学习模型（如支持向量机、K近邻、神经网络等）对输入数据的距离敏感，而距离计算会受到不同量纲的影响。为了缓解这个问题，可以采用 **特征缩放** 方法。 #### 常见的特征缩放方法及其适用场景 1. **最小最大缩放（Min-Max Scaling）** 最小最大缩放是一种线性变换技术，用于将数据映射到指定范围（通常是 [0, 1] 或 [-1, 1]）。这种方法适用于需要保持数据分布形状不变的情况。示例代码如下： ```python import numpy as np from sklearn.preprocessing import MinMaxScaler # 创建示例数据 data = np.array([[1, 2], [2, 4], [3, 6], [4, 8], [5, 10]]) # 定义并应用缩放器 scaler = MinMaxScaler(feature_range=(0, 1)) scaled_data = scaler.fit_transform(data) print("原始数据：\n", data) print("\n区间缩放后的数据：\n", scaled_data) ``` 这种方法的优点在于其简单性和直观性[^3]，但它对异常值较为敏感。 2. **Z-Score 标准化（Standardization）** Z-Score 标准化通过减去均值并将结果除以标准差的方式，使数据呈现零均值和单位方差的特点。该方法适合于假设数据服从正态分布的情形，并能有效减少极端值的影响。手动实现 Z-Score 的函数可表示为： ```python import numpy as np def z_score(df): N, x_z = df.shape[0], [] for item in df.columns.tolist(): mean = np.mean(df[item]) std = np.std(df[item]) Z = (df[item] - mean) / std x_z.append(Z) return np.array(x_z).T # 调用自定义函数 standardized_data = z_score(df) print(standardized_data[:5]) # 输出前五行标准化后的数据 ``` 使用 `sklearn` 实现则更为简洁： ```python from sklearn.preprocessing import StandardScaler scaler = StandardScaler() standardized_data = scaler.fit_transform(data) print("标准化后的数据：\n", standardized_data) ``` 此外，对于非高斯分布的数据，也可以考虑其他转换方式，比如 Box-Cox 变换或 Yeo-Johnson 变换[^5]。 3. **Robust Scaler** Robust Scaler 是一种基于分位数的方法，它利用中位数和四分位距（IQR），而不是平均值和标准差来进行缩放。因此，这种技术非常适合存在大量异常值的数据集。示例代码如下： ```python from sklearn.preprocessing import RobustScaler robust_scaler = RobustScaler() transformed_data = robust_scaler.fit_transform(data) print("经过鲁棒缩放后的数据：\n", transformed_data) ``` 鲁棒缩放的优势在于能够抵抗异常值带来的影响[^4]。 4. **归一化（Normalization）** 归一化通常指 L2 范数归一化，即将每条样本的数值按比例缩小至长度为 1 的向量空间内。此操作特别适配于文本分类等领域内的余弦相似度计算需求。下面是一个简单的例子： ```python from sklearn.preprocessing import Normalizer normalizer = Normalizer(norm='l2') normalized_data = normalizer.transform(data) print("L2范数归一化后的数据：\n", normalized_data) ``` --- ### 总结针对因量纲差异引发的问题，推荐优先尝试上述提到的各种特征缩放手段之一。具体选择取决于实际应用场景以及目标算法的要求： - 如果关注的是相对变化幅度而非绝对值，则可以选择 **MinMaxScaling**； - 若需消除单位效应同时保留原有分布特性，应选用 **Standardization**； - 当面临严重偏斜或者含有较多噪声点的数据集合时，不妨试试看更加稳健可靠的 **Robust Scaler** 方案。以上便是关于如何应对由于量纲不统一所造成困扰的一些见解[^1][^2][^5]。

sklearn.preprocessing.RobustScaler（解释和原理，分位数，四分位差）

文章目录 @[TOC](文章目录) 一、RobustScaler 是什么？ 二、代码 1.代码 2.输出结果 总结

文章目录

一、RobustScaler 是什么？

二、代码

1.代码

文章目录

@[TOC](文章目录)

一、RobustScaler 是什么？

二、代码

1.代码

2.输出结果

总结