参考文章:
[1] https://blog.csdn.net/lovejay7/article/details/81077847
[2] https://www.jianshu.com/p/71eea3555dbf
1、数据不均衡
数据不平衡问题主要存在于有监督的机器学习任务中。
当数据不平衡时,以总体分类准确率为学习目标的传统分类算法回过多的关注多数类,从而使得少数样本的性能下降,也就是说,如果数据样本中正样本的数目远远大于负样本,那么在预测过程中只要把预测结果都预测为正,就会获得很高的准确率,但这样的预测毫无价值。
2、解决方法
1.采样
采样方法是通过对训练集进行处理使其从不平衡数据集变成平衡的数据集。
采样分为上采样(过采样)和下采样(欠采样)。
上采样(过采样)是增加稀有样本(少的那一类样本)的数量来平衡数据集。
下采样(欠采样)是减少丰富样本(多的那一类样本)的数量来平衡数据集。
随机采样的最大优点是简单,但是随机采样的缺点也很明显。
上采样后的数据集中会反复出现一些样本,训练出来的模型会有一定的过拟合;而下采样的缺点显而易见,那就是最终的训练集丢失了数据,模型只学到了总体的一部分。
两种方法相对而言都没有绝对的优势,上采样会把小众样本复制多份,一个点会在高维空间中反复出现,这会导致一个问题,那就是运气好就能分对很多点,否则分错很多点。为了解决这一问题,可以在每次生成新数据点时加入轻微的随机扰动,经验表明这种做法非常有效。
因为下采样会丢失信息,如何减少信息的损失呢?第一种方法叫做EasyEnsemble,利用模型融合的方法(Ensemble):多次下采样(放回采样,这样产生的训练集才相互独立)产生多个不同的