Remix：用于不平衡数据的重平衡混合方法

立即解锁

发布时间: 2025-09-02 01:00:57 阅读量: 22 订阅数: 59

计算机视觉前沿研究

### Remix：用于不平衡数据的重平衡混合方法在深度学习领域，深度神经网络在计算机视觉、自然语言处理和强化学习等多个领域取得了显著突破。然而，训练数据的质量和分布对神经网络模型的性能有着至关重要的影响。在实际应用中，数据不平衡是一个常见的问题，它会导致神经网络在推理时偏向多数类，从而影响模型的泛化能力。本文将介绍一种名为Remix的正则化技术，它能够有效解决数据不平衡问题，提高模型在不平衡数据集上的性能。 #### 1. 数据不平衡问题与现有解决方案在训练神经网络模型时，数据不平衡是一个常见的挑战。当训练集中某些类别的样本数量明显多于其他类别时，数据分布就会出现偏斜，这种情况被称为数据不平衡。数据不平衡可能会使神经网络在进行推理时偏向多数类，从而影响模型的泛化能力。为了缓解这个问题，之前的许多工作主要分为两类：重加权和重采样。 - **重加权**：通过调整不同类别的成本（或损失）来重新定义每个类或样本的重要性。然而，在极端不平衡的情况下，重加权可能会使优化变得困难，并且在没有应用正则化时效果不佳。 - **重采样**：通过过采样少数类或欠采样多数类来重建平衡的数据集。虽然重采样在一般情况下很有用，但在现代深度神经网络中，特征提取和分类是端到端进行的，而过采样通常在特征提取之后进行，因此很难集成到模型中，特别是在处理大规模数据集时。此外，还有一些其他的方法，如替代训练目标、基于Mixup的正则化等，但这些方法大多是为平衡数据设计的，在处理现实世界中的不平衡数据集时效果不佳。 #### 2. Mixup及其局限性 Mixup是一种用于提高深度神经网络泛化能力的正则化技术。其核心思想是通过线性组合数据集中的任意样本对来生成混合样本。具体来说，Mixup假设特征向量的线性插值应该伴随着使用相同混合因子λ的相关标签的线性插值。然而，当类别分布不平衡时，这种假设的效果并不好。在这种情况下，Mixup可能会导致模型对多数类的偏向更加严重，从而影响模型在少数类上的性能。 #### 3. Remix方法的提出为了解决Mixup在不平衡数据场景下的局限性，本文提出了Remix方法。Remix放松了使用相同混合因子的约束，允许在构建虚拟混合样本时，特征和标签的混合因子不同。 Remix的具体公式如下： \[ \begin{align*} \tilde{x}_{RM} &= \lambda_x x_i + (1 - \lambda_x) x_j \\ \tilde{y}_{RM} &= \lambda_y y_i + (1 - \lambda_y) y_j \end{align*} \] 其中，\(\lambda_x\) 是从beta分布中采样得到的，而 \(\lambda_y\) 的定义如下： \[ \lambda_y = \begin{cases} 0, & n_i / n_j \geq \kappa \text{ 且 } \lambda < \tau \\ 1, & n_i / n_j \leq 1 / \kappa \text{ 且 } 1 - \lambda < \tau \\ \lambda, & \text{ 其他情况 } \end{cases} \] 这里，\(n_i\) 和 \(n_j\) 分别表示样本 \(i\) 和样本 \(j\) 所属类别的样本数量，\(\kappa\) 和 \(\tau\) 是两个超参数。 Remix的主要思想是在混合样本时，为少数类分配更高的权重，从而使合成标签更倾向于少数类。这样做的目的是将决策边界推向多数类，平衡多数类和少数类之间的泛化误差。 #### 4. Remix与其他方法的比较 Remix与一些常见的方法有明显的区别： - **与SMOTE和ADASYN的比较**：SMOTE和ADASYN依赖于样本的同类邻居知识进行插值，而Remix可以对任意两个给定样本进行插值。此外，Remix不仅关注创建新的数据点，还注重对混合数据进行标注，而SMOTE和ADASYN则在原始数据和合成数据上训练分类器。 - **与Mixup、Manifold Mixup和CutMix的比较**：Mixup、Manifold Mixup和CutMix在特征空间和标签空间使用相同的混合因子，而Remix允许特征和标签的混合因子不同，从而更好地适应不平衡数据的情况。 #### 5. Remix算法的伪代码以下是Remix算法的伪代码： ```plaintext Require: Dataset D = {(xi, yi)}n i=1. A model with parameter θ 1: Initialize the model parameters θ randomly 2: while θ is not converged do 3: {(xi, yi), (xj, yj)}M m=1 ← SamplePairs(D, M) 4: λx ∼ Beta(α, α) 5: for m = 1 to M do 6: ˜xRM ← RemixImage(xi, xj, λx) according to Eq. 8 7: λy ← LabelMixingFactor(λx, ni, nk, τ, κ) according to Eq. 10 8: ˜yRM ← RemixLabel(yi, yj, λy) according to Eq. 9 9: end for 10: L(θ) ← 1/M Σ(˜x,˜y) L((˜x, ˜y); θ) 11: θ ← θ − δ∇θL(θ) 12: end while ``` #### 6. 实验设置与数据集为了验证Remix方法的有效性，本文在多个不平衡数据集上进行了实验，包括人工创建的不平衡CIFAR-10、CIFAR-100和CINIC-10数据集，以及现实世界中的大规模不平衡数据集iNaturalist 2018。 - **不平衡CIFAR**：通过对原始CIFAR-10和CIFAR-100数据集进行处理，创建了具有长尾不平衡和阶梯不平衡两种类型的不平衡数据集。 - **不平衡CINIC**：CINIC-10数据集由CIFAR-10图像和从ImageNet数据库下采样的图像组合而成。使用该数据集可以更好地比较不同方法，因为每个类有9000个训练数据，允许进行各种不平衡比率的实验。 - **iNaturalist 2018**：这是一个现实世界中的大规模不平衡数据集，包含437,513个训练图像，分为8,142个类别。该数据集的类别分布呈长尾状，验证集则设计为平衡分布。 #### 7. 实验结果在实验中，将Remix与多种最先进的方法进行了比较，包括经验风险最小化

最低0.47元/天解锁专栏

买1年送3月

继续阅读点击查看下一篇

400次会员资源下载次数

300万+ 优质博客文章

1000万+ 优质下载资源

1000万+ 优质文库回答

复制全文

Remix：用于不平衡数据的重平衡混合方法

相关推荐

专栏目录

Remix：用于不平衡数据的重平衡混合方法

相关推荐

seacret-remix:用于获取产品信息的实验应用

ubuntu-retro-remix：用于在Raspberry Pi上进行复古游戏的Ubuntu remix

yaru-remix：yaru-remix的新手方法

MMMerge-Remix:力量与魔法合并6-8平衡与随机数模组

XBot-Remix:没什么:high_voltage:

quorum-remix:混音IDE插件

nest-remix-server:用于 Nest Remix IOT 演示的 Node.js 服务器

remix：已移至https：github.comethereumremix-project

remix-cita:用于CITA的Solidity IDE的混音

Music player - Remix:直接在手机中收听Remix混音-开源

acm-jvm-1.0.59-sources.jar

专栏目录

最新推荐

动态目标成像中MUSIC算法性能评估与优化：实测数据对比（含Matlab仿真）

Kubernetes文件夹监控新玩法：Pod级监听的实现方案与性能优化策略

LBM网格划分策略揭秘：如何在精度与资源之间找到最佳平衡点？

【湍流模型选择终极指南】：k-epsilon、k-omega、Spalart-Allmaras深度对比解析

【Qt串口开发黄金教程】：彻底掌握数据接收与高效解析技巧

自定义监控新姿势：SQLTracker插件开发实战指南（附SDK下载链接）

【SMA模型在LS-DYNA中的实现】：关键技术难点与解决方案

模糊综合评价与多目标优化协同建模方法：复杂问题决策新思路，实战必看

GPU加速实战：大气廓线反演算法性能提升10倍的实现路径

模块化开发实战：AvalonDock与Prism框架整合构建桌面应用终极方案