Multi-class Token Transformer for Weakly Supervised Semantic Segmentation

code:https://github.com/xulianuwa/MCTformer

摘要

本文提出了一种基于Transformer的新框架,用于学习类别特定的对象定位图,并将其作为弱监督语义分割(WSSS)的伪标签。受到标准视觉Transformer中单类别token的关注区域可用于生成类别无关定位图的启发,我们探讨了Transformer模型是否也能够通过学习多个类别token来有效捕捉类别特定的注意力,从而实现更具区分性的对象定位。为此,我们提出了一种多类别token Transformer,称为MCTformer,它使用多个类别token来学习类别token与patch token之间的交互。所提出的MCTformer能够成功生成类别区分度高的对象定位图,这些图是通过不同类别token与patch之间的注意力关系得到的。我们还提出使用patch间的成对关联性(从patch到patch的Transformer注意力中提取)进一步优化定位图。此外,所提出的框架与类激活映射(CAM)方法完全互补,在PASCAL VOC和MS COCO数据集上显著提升了WSSS的效果。这些结果强调了类别token在WSSS中的重要性。

  • 在图像处理中,图像会被切分成小块(通常是固定大小的区域),这些小块称为“patch”。
  • 每个“patch”会被转换为一个特征向量,这个特征向量就被称为一个“token”。
  • 在本文中,除了图像patch生成的token,还有用于表示类别信息的“class token”。这些类别token用于捕捉不同类别的注意力信息,从而帮助模型生成类别特定的定位图。

图一:(a)在之前的视觉变形器[10]中,仅使用一个类token(红色方块)来聚合patch  token(蓝色方块)的信息。学习到的与类token对应的patch关注生成与类无关的定位图。(b)相比之下,所提出的MCTformer使用多个类token来学习类token与patch  token之间的交互。学习到的不同类token的类到patch注意可以生成特定类的对象定位映射。 

1.引言

从Transformer中提取类别特定的注意力是一项具有挑战性的任务。我们认为,现有的基于Transformer的方法存在一个共同的问题,即仅使用一个类别token,这使得在单张图像上精确定位不同的对象变得困难。这有两个主要原因。首先,单一类别token的设

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值