API-Net

最新推荐文章于 2024-09-16 07:26:24 发布

景唯acr

最新推荐文章于 2024-09-16 07:26:24 发布

阅读量1.8k

点赞数 6

CC 4.0 BY-SA版权

分类专栏：细粒度分类文章标签：细粒度分类

本文链接：https://blog.csdn.net/weixin_41735859/article/details/108554150

细粒度分类专栏收录该内容

8 篇文章

订阅专栏

论文标题：Learning Attentive Pairwise Interaction for Fine-Grained Classification
针对目标：细粒度图像分类
论文来源： AAAI 2020
下载地址：https://arxiv.org/pdf/2002.10191.pdf
code地址: 未开源
论文坑点：对设备要求极高，按照论文中消融实验的结果，batch_size设为120，另外还要构造成图像对，才能达到论文的 88.6 acc
论文槽点：这篇论文写的太大白话了点，额。。。

动机

以往的大部分相关论文都是从单个图像中去寻找目标的判别性区域，这样一来，网络比较不同目标的能力还有待提升。人类在辨别类似的目标的时候，经常是将类似目标成对的进行比较，发现不同，进而判断出分别属于那一类。 讲真，我现在都还是分不清柴犬和秋田犬！！！放一起比较我也比较不来，尴尬。

本文看点

互向量学习 (Mutual Vector Learning)
门向量生成 (Gate Vector Generation)
成对交互 (Pairwise Interaction)
分数排序正则化(Score Ranking Regularization)
图像对的构建(Pair Construction)

训练阶段

网络结构：
在这里插入图片描述
我们按照网络结构一步一步走。

1.互向量学习

一对输入图片，通过CNN特征提取器（Resnet101）获取两个特征向量 $x_1$ , $x_2$ （特征图经过全局平均池化得到的特征向量）。将 $x_1$ , $x_2$ 拼接，再经过两个全连接层（上图中的MLP）得到互向量 $x_m$ ：
$x_m = f_m([x_1,x_2])$ 其中 $f_m$ 为 MLP 操作。

如此一来， $x_m$ 就结合了 $x_1$ , $x_2$ 的特征。

2.门向量生成

在学习到 互向量 $x_m$ 后，可以将 $x_m$ 和 $x_1$ , $x_2$ 进行比较，进而可以找到两张图片中目标特征上的区别。政治考试中的共性和个性吧，是这个意思吧？hahaha~~
具体来说，分别将 $x_m$ 和 $x_1$ , $x_2$ 相乘，然后经过 $s i g m o i d$ 激活。
$\mathbf{g}_{i}=sigmoid\left(\mathbf{x}_{m} \odot \mathbf{x}_{i}\right), i \in\{1,2\}$
门向量 $g_i$ 有什么用？可以作为一种注意力向量，用来找到两张图片中不同特征，该功能在成对交互能够体现。

3.成对交互

两个特征向量 $x_1$ , $x_2$ ，两个门 $g_1$ , $g_2$ ，根据网络结构图可以看出来，向量与门两两组合，进行一些操作，得到四个向量。从公式角度来看， $x_i$ 经过 $g_i$ 门的注意力引导，加强或者减弱了某些通道，再与自身相加得到输出。
$\begin{aligned} \mathbf{x}_{1}^{\text {self}} &=\mathbf{x}_{1}+\mathbf{x}_{1} \odot \mathbf{g}_{1} \\ \mathbf{x}_{2}^{\text {self}} &=\mathbf{x}_{2}+\mathbf{x}_{2} \odot \mathbf{g}_{2} \\ \mathbf{x}_{1}^{\text {other}} &=\mathbf{x}_{1}+\mathbf{x}_{1} \odot \mathbf{g}_{2} \\ \mathbf{x}_{2}^{\text {other}} &=\mathbf{x}_{2}+\mathbf{x}_{2} \odot \mathbf{g}_{1} \end{aligned}$
因此， ${x}_{i}^{\text {self}}$ 强化了属于自身的特定特征区域， ${x}_{i}^{\text {other}}$ 则强化了属于另一个类别的特征区域。

可以看出来，身体结构对左边的鸟更重要，喙对于右边的鸟更重要（根据 self 和 other 判断）。

4.分数排序正则化

成对交互的下一步就是分类了。
将 $x_{i}^{j}$ 经过softmax打分，得到概率值。
$\mathbf{p}_{i}^{j}=\operatorname{softmax}\left(\mathbf{W} \mathbf{x}_{i}^{j}+\mathbf{b}\right)$
使用 $C E l o s s$ 作为损失函数，另外，作者定义了一个分数排序正则化 $\mathcal{L}_{rk}$
所以最终的损失函数为： $\mathcal{L}=\mathcal{L}_{c e}+\lambda \mathcal{L}_{r k}$
权重因子 $\lambda$ 设为1。
其中： $\mathcal{L}_{r k}=\sum_{i \in\{1,2\}} \max \left(0, \mathbf{p}_{i}^{\text {other}}\left(c_{i}\right)-\mathbf{p}_{i}^{\text {self}}\left(c_{i}\right)+\epsilon\right)$
$\epsilon$ 为惩罚项，设为0.05。 $\mathcal{L}_{rk}$ 作用是让 ${p}_{i}^{\text {other}}$ 的优先级更低。

5.图像对的构建

随机选择 $N_{cl}$ 个类别；
对于第1步中的每个类别，随机选择 $N_{im}$ 个训练图片。
如此一来就得到了 $N_{cl}*N_{im}$ 张图片。将 $N_{cl}*N_{im}$ 张图片送进特征提取器提取特征。通过欧式距离计算不同图像之间的特征距离，对于每张图像就可以选出同一个类别中特征距离最小的图片和不同类别中特征距离最小的图片。于是，每张图片可以得到两对图像对，一个batch中有 $2*N_{cl}*N_{im}$ 对图像，意味着 $4*N_{cl}*N_{im}$ 张图像。论文中表示 $N_{cl}=30，N_{im}=4$ 才行，啊，，这，抱歉，我玩不起啊。