See Better Before Looking Closer WSDAN

最新推荐文章于 2023-11-30 23:59:04 发布

good good study

最新推荐文章于 2023-11-30 23:59:04 发布

阅读量633

点赞数

CC 4.0 BY-SA版权

分类专栏：深度学习注意力机制文章标签：深度学习计算机视觉细粒度分类

本文链接：https://blog.csdn.net/weixin_39454351/article/details/107374804

本文探讨细粒度分类（FGVC）问题，通过端到端训练实现注意力区域的多样化。训练阶段采用弱监督注意力学习和注意力指导数据增强，促进网络对细节的关注。预测时利用注意力图的平均值来提取特征，以提高分类准确性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

问题：
细粒度分类 (FGVC) 是为了解决“类内分类”问题，有别于猫狗分类，它要解决的是 [这只狗是萨摩还是哈士奇] 这种问题。
方法：
通过端到端训练，使注意力关注的区域更加细节化和多样化(关注不同的部位)；然后在粗粒度预测之后，将注意力提取的区域输入网络，进行细粒度预测，预测结果为平均值。
训练过程
A 弱监督注意力学习
原始图片通过主干网络提取特征，产生的特征图F为H x W x N，表示高、宽、通道数。然后通过卷积操作获得注意力图 A为H x W x M，形式化表示：
在这里插入图片描述
然后提出了一种特征图和注意力图融合方式，Ak表示注意力图的一个通道，然后和特征图所有通道分别进行元素相乘，得到M个加权特征图，最后通过GAP得到一个特征矩阵。

B、注意力指导数据增强
在注意力图中随机选择一个通道的特征图做归一化操作，用来增强数据。
在这里插入图片描述
这样就可以通过这个归一化后的特征图做为Crop Mask了，大于某一个阈值的元素置1，小于置0，然后进行裁剪，把1都包含起来，上采样到原图大小，输入网络进行训练，让网络关注细节部分。

Drop 操作就是上面