Remix:用于不平衡数据的重平衡混合方法
立即解锁
发布时间: 2025-09-02 01:00:57 阅读量: 22 订阅数: 59 AIGC 


计算机视觉前沿研究
### Remix:用于不平衡数据的重平衡混合方法
在深度学习领域,深度神经网络在计算机视觉、自然语言处理和强化学习等多个领域取得了显著突破。然而,训练数据的质量和分布对神经网络模型的性能有着至关重要的影响。在实际应用中,数据不平衡是一个常见的问题,它会导致神经网络在推理时偏向多数类,从而影响模型的泛化能力。本文将介绍一种名为Remix的正则化技术,它能够有效解决数据不平衡问题,提高模型在不平衡数据集上的性能。
#### 1. 数据不平衡问题与现有解决方案
在训练神经网络模型时,数据不平衡是一个常见的挑战。当训练集中某些类别的样本数量明显多于其他类别时,数据分布就会出现偏斜,这种情况被称为数据不平衡。数据不平衡可能会使神经网络在进行推理时偏向多数类,从而影响模型的泛化能力。
为了缓解这个问题,之前的许多工作主要分为两类:重加权和重采样。
- **重加权**:通过调整不同类别的成本(或损失)来重新定义每个类或样本的重要性。然而,在极端不平衡的情况下,重加权可能会使优化变得困难,并且在没有应用正则化时效果不佳。
- **重采样**:通过过采样少数类或欠采样多数类来重建平衡的数据集。虽然重采样在一般情况下很有用,但在现代深度神经网络中,特征提取和分类是端到端进行的,而过采样通常在特征提取之后进行,因此很难集成到模型中,特别是在处理大规模数据集时。
此外,还有一些其他的方法,如替代训练目标、基于Mixup的正则化等,但这些方法大多是为平衡数据设计的,在处理现实世界中的不平衡数据集时效果不佳。
#### 2. Mixup及其局限性
Mixup是一种用于提高深度神经网络泛化能力的正则化技术。其核心思想是通过线性组合数据集中的任意样本对来生成混合样本。具体来说,Mixup假设特征向量的线性插值应该伴随着使用相同混合因子λ的相关标签的线性插值。
然而,当类别分布不平衡时,这种假设的效果并不好。在这种情况下,Mixup可能会导致模型对多数类的偏向更加严重,从而影响模型在少数类上的性能。
#### 3. Remix方法的提出
为了解决Mixup在不平衡数据场景下的局限性,本文提出了Remix方法。Remix放松了使用相同混合因子的约束,允许在构建虚拟混合样本时,特征和标签的混合因子不同。
Remix的具体公式如下:
\[
\begin{align*}
\tilde{x}_{RM} &= \lambda_x x_i + (1 - \lambda_x) x_j \\
\tilde{y}_{RM} &= \lambda_y y_i + (1 - \lambda_y) y_j
\end{align*}
\]
其中,\(\lambda_x\) 是从beta分布中采样得到的,而 \(\lambda_y\) 的定义如下:
\[
\lambda_y =
\begin{cases}
0, & n_i / n_j \geq \kappa \text{ 且 } \lambda < \tau \\
1, & n_i / n_j \leq 1 / \kappa \text{ 且 } 1 - \lambda < \tau \\
\lambda, & \text{ 其他情况 }
\end{cases}
\]
这里,\(n_i\) 和 \(n_j\) 分别表示样本 \(i\) 和样本 \(j\) 所属类别的样本数量,\(\kappa\) 和 \(\tau\) 是两个超参数。
Remix的主要思想是在混合样本时,为少数类分配更高的权重,从而使合成标签更倾向于少数类。这样做的目的是将决策边界推向多数类,平衡多数类和少数类之间的泛化误差。
#### 4. Remix与其他方法的比较
Remix与一些常见的方法有明显的区别:
- **与SMOTE和ADASYN的比较**:SMOTE和ADASYN依赖于样本的同类邻居知识进行插值,而Remix可以对任意两个给定样本进行插值。此外,Remix不仅关注创建新的数据点,还注重对混合数据进行标注,而SMOTE和ADASYN则在原始数据和合成数据上训练分类器。
- **与Mixup、Manifold Mixup和CutMix的比较**:Mixup、Manifold Mixup和CutMix在特征空间和标签空间使用相同的混合因子,而Remix允许特征和标签的混合因子不同,从而更好地适应不平衡数据的情况。
#### 5. Remix算法的伪代码
以下是Remix算法的伪代码:
```plaintext
Require: Dataset D = {(xi, yi)}n i=1. A model with parameter θ
1: Initialize the model parameters θ randomly
2: while θ is not converged do
3: {(xi, yi), (xj, yj)}M m=1 ← SamplePairs(D, M)
4: λx ∼ Beta(α, α)
5: for m = 1 to M do
6: ˜xRM ← RemixImage(xi, xj, λx) according to Eq. 8
7: λy ← LabelMixingFactor(λx, ni, nk, τ, κ) according to Eq. 10
8: ˜yRM ← RemixLabel(yi, yj, λy) according to Eq. 9
9: end for
10: L(θ) ← 1/M Σ(˜x,˜y) L((˜x, ˜y); θ)
11: θ ← θ − δ∇θL(θ)
12: end while
```
#### 6. 实验设置与数据集
为了验证Remix方法的有效性,本文在多个不平衡数据集上进行了实验,包括人工创建的不平衡CIFAR-10、CIFAR-100和CINIC-10数据集,以及现实世界中的大规模不平衡数据集iNaturalist 2018。
- **不平衡CIFAR**:通过对原始CIFAR-10和CIFAR-100数据集进行处理,创建了具有长尾不平衡和阶梯不平衡两种类型的不平衡数据集。
- **不平衡CINIC**:CINIC-10数据集由CIFAR-10图像和从ImageNet数据库下采样的图像组合而成。使用该数据集可以更好地比较不同方法,因为每个类有9000个训练数据,允许进行各种不平衡比率的实验。
- **iNaturalist 2018**:这是一个现实世界中的大规模不平衡数据集,包含437,513个训练图像,分为8,142个类别。该数据集的类别分布呈长尾状,验证集则设计为平衡分布。
#### 7. 实验结果
在实验中,将Remix与多种最先进的方法进行了比较,包括经验风险最小化
0
0
复制全文
相关推荐








