Multi-class Token Transformer for Weakly Supervised Semantic Segmentation

sanguine__

于 2024-08-25 21:41:17 发布

阅读量886

点赞数 14

CC 4.0 BY-SA版权

文章标签： transformer 深度学习人工智能

本文链接：https://blog.csdn.net/sanguine__/article/details/141471388

code：https://github.com/xulianuwa/MCTformer

摘要

本文提出了一种基于Transformer的新框架，用于学习类别特定的对象定位图，并将其作为弱监督语义分割（WSSS）的伪标签。受到标准视觉Transformer中单类别token的关注区域可用于生成类别无关定位图的启发，我们探讨了Transformer模型是否也能够通过学习多个类别token来有效捕捉类别特定的注意力，从而实现更具区分性的对象定位。为此，我们提出了一种多类别token Transformer，称为MCTformer，它使用多个类别token来学习类别token与patch token之间的交互。所提出的MCTformer能够成功生成类别区分度高的对象定位图，这些图是通过不同类别token与patch之间的注意力关系得到的。我们还提出使用patch间的成对关联性（从patch到patch的Transformer注意力中提取）进一步优化定位图。此外，所提出的框架与类激活映射（CAM）方法完全互补，在PASCAL VOC和MS COCO数据集上显著提升了WSSS的效果。这些结果强调了类别token在WSSS中的重要性。

在图像处理中，图像会被切分成小块（通常是固定大小的区域），这些小块称为“patch”。

每个“patch”会被转换为一个特征向量，这个特征向量就被称为一个“token”。

在本文中，除了图像patch生成的token，还有用于表示类别信息的“class token”。这些类别token用于捕捉不同类别的注意力信息，从而帮助模型生成类别特定的定位图。

图一：(a)在之前的视觉变形器[10]中，仅使用一个类token(红色方块)来聚合patch token(蓝色方块)的信息。学习到的与类token对应的patch关注生成与类无关的定位图。(b)相比之下，所提出的MCTformer使用多个类token来学习类token与patch token之间的交互。学习到的不同类token的类到patch注意可以生成特定类的对象定位映射。

1.引言

从Transformer中提取类别特定的注意力是一项具有挑战性的任务。我们认为，现有的基于Transformer的方法存在一个共同的问题，即仅使用一个类别token，这使得在单张图像上精确定位不同的对象变得困难。这有两个主要原因。首先，单一类别token的设

最低0.47元/天解锁文章