file-type

跨尺度注意力转换器CrossViT:超越ViT的图像分类新成果

PDF文件

12.69MB | 更新于2025-01-16 | 66 浏览量 | 0 下载量 举报 收藏
download 立即下载
"CrossViT:用于图像分类的交叉注意力多尺度视觉转换器"是一项旨在提升视觉转换器性能的研究,尤其是在与卷积神经网络(CNN)竞争图像分类任务时。论文作者Chun-Fu (Richard) Chen, Quanfu Fan, 和 Rameswar Panda来自MIT-IBM Watson AI Lab,他们提出了一种创新的双分支转换器结构。这个设计的核心在于结合不同尺寸的图像块(在转换器中称为标记),通过注意力机制实现多尺度特征的融合。 论文的主要贡献包括: 1. 双分支转换器:构建了一个包含小块和大块标记的模型,每个分支具有不同的计算复杂度,分别处理这些不同尺度的信息。这种设计允许模型捕获丰富的图像特征,增强整体表达能力。 2. 注意力纯粹融合:通过两次或多次的注意力机制,小块和大块标记之间的信息得以高效交流和互补,这有助于提高模型的泛化性能。 3. 交叉注意力模块:为减少计算负担,作者提出了一种创新的模块,基于交叉注意力设计,使得信息交换仅需线性时间而非二次时间。这显著提升了效率,而不会牺牲精度。 4. 实验结果:在ImageNet1K数据集上,CrossViT在保持相对较少的FLOPs和模型参数增长的情况下,取得了比DeiT(近期的一项先进工作)更高的性能,以2%的优势表现出色。相比于其他同时期的工作,尤其是高效的CNN模型,CrossViT展示了其在图像分类任务上的竞争力。 论文还展示了CrossViT与DeiT和ViT(早期视觉转换器的代表)在准确率和计算资源消耗方面的比较,直观地显示了其改进之处。源代码和模型可以在<https://github.com/IBM/CrossViT> 获取,供学术界和业界进一步研究和应用。 CrossViT代表了视觉转换器在图像分类领域的最新进展,它不仅提供了多尺度特征表示的解决方案,还通过优化注意力机制和计算效率,展示了其在与传统CNN竞争时的优势。

相关推荐

cpongm
  • 粉丝: 6
上传资源 快速赚钱