Decoupling Representation and Classifier for Lont-Tailed Recognition
长尾问题是基于深度学习分类模型的一大难点。现有的解决方案包括损失加权,数据重采样,头部类别到尾部类别的迁移学习。大多数方案都将表示和分类器联合学习。本文将学习过程分解成表示学习和分类。系统的探索了上述方法是怎么影响这两个部分,以获得在长尾分布上更好的表示。发现两个结果:
(1)在学习高质量的文本表示时,数据不均衡不是一个问题。(即使数据不均衡,也能学习到高质量的文本表示)
(2)使用最简单的实例均衡采样学习的表示,仅仅调整分类器就能获得很强的长尾识别效果。
本文为了研究针对长尾问题的方法究竟是学习了更好的文本表示,还是得到了更好的决策器分类边界。为此,将长尾识别分离成表示学习和分类器学习。
1、representation learning
采用不同的采样方法,直接用训练数据训练模型。得到每个样本的特征表示。在之后的分类器学习时,冻结表示学习部分,只调整分类器。在表示学习中,尝试了三种采样策略:
- 样本均衡采样。(按原始长尾分布采样)
- 类别均衡采样。(每个类别等概率采样,相当于过采样到每个类别数相等)
- 两种采样方式的混合
2、classification
采用下面三种方法来获得具有均衡边界的分类器。分类器的边界均衡在长尾问题识别中很重要。
- Classifier Re-training(cRT),使用类均衡采样重新训练分类器。只训练分类器,冻结其他参数。
- Nearest Class Mean classifier(NCM),不含参数的最近邻均值分类器。先求每个类别的特征均值,再根据距离度量选择最近样本的类别作为预测结果。
- τ − n o r m a l i z e d c l a s s i f i e r ( τ − n o r m a l i z e d ) \tau-normalized classifier(\tau-normalized) τ−normalized classifier(τ−normalized),对分类器的权重进行归一化。直接使用归一化将权重调整的更加平衡,同时使用 τ , t e m p e r a t u r e \tau,temperature τ,temperature来调整归一化过程。
通过观察发现,使用样本平衡采样进行联合训练后,分类器中第j类的权重 w j w_j wj的范数和该类的样本数 N j N_j Nj成正相关。如下图:
分类器中属于每个类别的权重范数不同,头部类别的决策边界会更占优。如下图:
文章使用上述三种方法来获得更加均衡的决策边界。使用类均衡采样再次训练,每个类别的范数会更相近。最近邻由于没有参数,决策边界也是均衡的。下面详细介绍 τ − n o r m a l i z e d \tau-normalized τ−normalized方法。
2.1 τ − n o r m a l i z e d \tau-normalized τ−normalized
样本均衡采样联合训练后,权重
w
j
w_j
wj的范数和该类样本数
N
j
N_j
Nj相关。而使用类均衡采样微调后,分类器权重的范数更加接近。我们考虑使用
τ
−
n
o
r
m
a
l
i
z
a
t
i
o
n
\tau-normalization
τ−normalization方法调整分类器权重的范数,来纠正不均衡的分类边界。设
W
=
{
w
j
}
∈
R
d
×
C
W=\{w_j\}\in R^{d\times C}
W={wj}∈Rd×C,其中
w
j
∈
R
d
w_j\in R^d
wj∈Rd是分类器对应于类别j的权重。使用下面公式将
W
W
W放缩到
W
~
=
{
w
~
j
}
\widetilde W=\{\widetilde w_j\}
W
={w
j}:
W
~
i
=
W
i
∣
∣
W
i
∣
∣
τ
,
\widetilde W_i=\frac{W_i}{||W_i||^\tau},
W
i=∣∣Wi∣∣τWi,
其中
∣
∣
⋅
∣
∣
||\cdot||
∣∣⋅∣∣表示二范数,
τ
\tau
τ是控制正则“温度”的超参。当
τ
=
1
\tau=1
τ=1时,公式退化成标准L2正则。
τ
=
0
\tau=0
τ=0时,不做放缩。经过
τ
−
n
o
r
m
a
z
a
t
i
o
n
\tau-normazation
τ−normazation后,分类logits通过
y
^
=
W
~
T
f
(
x
;
θ
)
\hat y=\widetilde W^Tf(x;\theta)
y^=W
Tf(x;θ)给出。
τ
\tau
τ值的选择和准确率曲线如下图:
Learnable weight scaling (LWS).
τ
−
n
o
r
m
a
l
i
z
a
t
i
o
n
\tau-normalization
τ−normalization的另一个解释是把它看做分类器
w
i
w_i
wi放缩因子,保持其原有方向不变。
w
~
i
=
f
i
∗
w
i
,
w
h
e
r
e
f
i
=
1
∣
∣
w
i
∣
∣
τ
\widetilde w_i=f_i*w_i,where\ f_i=\frac{1}{||w_i||^\tau}
w
i=fi∗wi,where fi=∣∣wi∣∣τ1
超参
τ
\tau
τ可以通过交叉验证来确定,也可以把它当做是可学习的参数,通过在训练学习得到。学习过程中冻结其他所有参数的权重。
3、实验结果
如上图所示,使用解耦的方法能在除了头部类别以外的所有类别取得更好的结果。
在所有的采样方法中,使用样本均衡采样学习特征表示+边界均衡的分类器可以获得最高的性能。说明在原始分布下训练才能学习到最好的特征表示。影响长尾识别的效果的关键在于分类器的分类边界不均衡。使用 c R T cRT cRT或者 τ − n o r m a l i z a t i o n \tau-normalization τ−normalization纠正分类边界后都能确定最好的长尾识别结果。