论文笔记：ViT Adapter——Transformer与CNN特征融合，屠榜语义分割！

最新推荐文章于 2025-03-03 00:25:40 发布

一只蜗牛儿

最新推荐文章于 2025-03-03 00:25:40 发布

阅读量1.2k

点赞数 7

CC 4.0 BY-SA版权

文章标签：论文阅读 transformer cnn

本文链接：https://blog.csdn.net/qq_42978535/article/details/144670850

一、背景与挑战

语义分割任务旨在对图像中的每一个像素进行分类，这一任务在图像分割、医学图像分析、自动驾驶等领域有着广泛应用。近年来，卷积神经网络（CNN）凭借其强大的局部特征提取能力在图像分割领域取得了显著进展。然而，CNN虽然能够有效捕捉局部信息，但其对于全局上下文的建模能力较弱，尤其是在图像中的远距离依赖关系方面存在局限性。

为了弥补这一不足，Transformer（特别是Vision Transformer，ViT）在计算机视觉领域得到了广泛的应用。ViT通过自注意力机制能够捕捉图像中的长距离依赖关系，并取得了非常好的性能。ViT在语义分割中的应用也取得了突破性进展，但是其计算开销和训练难度相对较高。

针对这种问题，ViT Adapter的提出提供了一种创新性的方案，将ViT的优点与CNN的局部特征提取能力相结合，从而实现更高效的特征融合，最终提高语义分割的性能。

二、ViT Adapter简介

ViT Adapter的核心思想是通过在ViT模型中引入一个适配器（Adapter）模块，将CNN提取的局部特征与Transformer的全局特征有效融合，从而提升模型对图像内容的理解能力。

1. Transformer与CNN特征融合

ViT Adapter的关键创新点在于如何将CNN和Transformer的特征进行高效融合。具体地，ViT Adapter通过以下步骤进行特征融合：

CNN特征提取：首先通过CNN提取图像的低级特征，这些特征通常具有很强的局部信息。
Transformer编码：然后使用ViT模型对图像进行全局特征建模。ViT通过自注意力机制捕捉图像中的全局上下文信息，弥补CNN在远距离依赖建模方面的不足。
适配器（Adapter）模块：最后，ViT Adapter通过设计一个适配器模块将CNN和Transformer的特征进行融合。这个适配器模块可以灵活地调整CNN和Transformer特征的权重，从而使得模型能够在保证计算效率的同时，充分利用两者的优点。

2. 适配器的设计

ViT Adapter的适配器模块主要由以下几个部分组成：

卷积层（Conv Layers）：首先使用卷积层将CNN提取的特征映射到与ViT特征维度相同的空间，保证CNN特征能够与ViT的全局特征兼容。
自注意力机制（Self-Attention）：然后，利用自注意力机制对CNN和ViT的特征进行加权融合。这个过程能够自动学习不同特征的重要性，从而对不同任务进行针对性的优化。
激活函数与归一化：通过ReLU等激活函数以及批量归一化，进一步提升模型的非线性表示能力。

三、ViT Adapter在语义分割中的应用

1. 模型架构

ViT Adapter的整体架构如下所示：

+------------------+        +-----------------------+        +------------------+
|    CNN Backbone  | ------> |    ViT Backbone       | ------> |   ViT Adapter    |
+------------------+        +-----------------------+        +------------------+