机器学习正负不均衡问题

最新推荐文章于 2022-04-04 02:54:08 发布

原创

最新推荐文章于 2022-04-04 02:54:08 发布 · 1.1k 阅读

·

1

·

CC 4.0 BY-SA版权

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

文章标签：

数据不平衡问题在有监督学习中常见，导致模型偏向多数类。解决方法包括采样（上采样、下采样）、数据合成、一分类、组合不同重采样数据集、多模型Bagging以及设计适合不平衡数据的模型。如SMOTE、Borderline-SMOTE、One-Class SVM等技术有助于改善模型性能。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

参考文章：

[1] https://blog.csdn.net/lovejay7/article/details/81077847

[2] https://www.jianshu.com/p/71eea3555dbf

1、数据不均衡

数据不平衡问题主要存在于有监督的机器学习任务中。

当数据不平衡时，以总体分类准确率为学习目标的传统分类算法回过多的关注多数类，从而使得少数样本的性能下降，也就是说，如果数据样本中正样本的数目远远大于负样本，那么在预测过程中只要把预测结果都预测为正，就会获得很高的准确率，但这样的预测毫无价值。

2、解决方法

1.采样

采样方法是通过对训练集进行处理使其从不平衡数据集变成平衡的数据集。

采样分为上采样（过采样）和下采样（欠采样）。

上采样（过采样）是增加稀有样本（少的那一类样本）的数量来平衡数据集。

下采样（欠采样）是减少丰富样本（多的那一类样本）的数量来平衡数据集。

随机采样的最大优点是简单，但是随机采样的缺点也很明显。

上采样后的数据集中会反复出现一些样本，训练出来的模型会有一定的过拟合；而下采样的缺点显而易见，那就是最终的训练集丢失了数据，模型只学到了总体的一部分。

两种方法相对而言都没有绝对的优势，上采样会把小众样本复制多份，一个点会在高维空间中反复出现，这会导致一个问题，那就是运气好就能分对很多点，否则分错很多点。为了解决这一问题，可以在每次生成新数据点时加入轻微的随机扰动，经验表明这种做法非常有效。

因为下采样会丢失信息，如何减少信息的损失呢？第一种方法叫做EasyEnsemble，利用模型融合的方法（Ensemble）：多次下采样（放回采样，这样产生的训练集才相互独立）产生多个不同的

最低0.47元/天解锁文章

200万优质内容无限畅学

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。