See Better Before Looking Closer WSDAN

本文探讨细粒度分类(FGVC)问题,通过端到端训练实现注意力区域的多样化。训练阶段采用弱监督注意力学习和注意力指导数据增强,促进网络对细节的关注。预测时利用注意力图的平均值来提取特征,以提高分类准确性。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

问题:
细粒度分类 (FGVC) 是为了解决“类内分类”问题,有别于猫狗分类,它要解决的是 [这只狗是萨摩还是哈士奇] 这种问题。
方法:
通过端到端训练,使注意力关注的区域更加细节化和多样化(关注不同的部位);然后在粗粒度预测之后,将注意力提取的区域输入网络,进行细粒度预测,预测结果为平均值。
训练过程
A 弱监督注意力学习
原始图片通过主干网络提取特征,产生的特征图F为H x W x N,表示高、宽、通道数。然后通过卷积操作获得注意力图 A为H x W x M,形式化表示:
在这里插入图片描述
然后提出了一种特征图和注意力图融合方式,Ak表示注意力图的一个通道,然后和特征图所有通道分别进行元素相乘,得到M个加权特征图,最后通过GAP得到一个特征矩阵。
在这里插入图片描述
B、注意力指导数据增强
在注意力图中随机选择一个通道的特征图做归一化操作,用来增强数据。
在这里插入图片描述
这样就可以通过这个归一化后的特征图做为Crop Mask了,大于某一个阈值的元素置1,小于置0,然后进行裁剪,把1都包含起来,上采样到原图大小,输入网络进行训练,让网络关注细节部分。
在这里插入图片描述
Drop 操作就是上面

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值