第一篇提出Vision Transformer的文章
时间: 2025-04-20 09:23:12 浏览: 19
<think>好的,我现在需要帮用户找到第一篇提出Vision Transformer(ViT)的文章以便引用。用户之前讨论过长尾分布的论文,但现在的需求是关于ViT的首篇论文,这可能与计算机视觉或图像分类相关。
首先,我要确定用户的具体需求。他们明确提到“第一篇提出Vision Transformer的文章”,所以需要确认ViT的原创论文。可能的关键词包括“Vision Transformer”、“ViT”、“图像分类”、“Transformer在视觉的应用”等。
接下来,回忆相关领域的重要论文。Transformer模型最初由Vaswani等人在2017年提出,应用于NLP。在计算机视觉中,将Transformer用于图像处理的首批工作中,ViT应该是一个里程碑。根据已有的知识,ViT是由Alexey Dosovitskiy等人在2021年发表的论文《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》中提出的,发表于ICLR 2021。这篇论文确实被认为是首次成功将纯Transformer架构应用于图像分类任务,并且展示了在大规模数据集上训练时,ViT可以超越传统的CNN模型。
用户提供的站内引用中,引用[1]和[2]是关于机器翻译的,可能与当前问题关联不大,但需要检查是否有其他相关引用。不过根据用户的最新问题,这些引用可能不适用,所以应主要依赖自己的知识库。
确认论文的详细信息:标题、作者、会议、年份、arXiv编号等。ViT的arXiv版本发布于2020年10月,正式会议是ICLR 2021。作者包括Alexey Dosovitskiy, Lucas Beyer, Alexander Kolesnikov, Dirk Weissenborn, Xiaohua Zhai, Thomas Unterthiner, Mostafa Dehghani, Matthias Minderer, Georg Heigold, Sylvain Gelly, Jakob Uszkoreit, Neil Houlsby。
需要验证是否有更早的论文提出类似概念。例如,之前可能有工作将Transformer用于图像,但ViT是首个完全依赖Transformer并在大规模数据上表现优异的。例如,iGPT(OpenAI)可能早于ViT,但iGPT是基于生成模型的,而ViT是用于分类的,且结构不同。因此ViT仍被认为是开创性的。
用户可能需要正确的引用格式,所以需要提供完整的参考文献条目,包括arXiv链接。此外,用户可能需要知道后续的重要工作,如DeiT(Data-efficient Image Transformer),但用户主要询问的是第一篇,因此重点放在ViT上。
总结回答结构:首先明确回答论文信息,然后简要介绍贡献,最后提供引用格式和相关问题。需要确保引用标识正确,如[^1]对应ViT论文,并生成相关问题帮助用户进一步探索。</think>---
### 首篇提出Vision Transformer的论文
**《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》**(ICLR 2021)是首次系统地将纯Transformer架构应用于图像分类的开创性工作。
- **核心贡献**:
1. 提出将图像分割为固定大小的块(例如$16 \times 16$像素),并将这些块线性嵌入为序列输入Transformer。
2. 证明当训练数据量足够大(如JFT-300M)时,Vision Transformer(ViT)在ImageNet等基准数据集上超越传统CNN模型(如ResNet)。
3. 分析了Transformer在视觉任务中的可扩展性与注意力机制的有效性。
- **引用格式**:
```
@article{dosovitskiy2021image,
title={An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale},
author={Dosovitskiy, Alexey and Beyer, Lucas and Kolesnikov, Alexander and Weissenborn, Dirk and Zhai, Xiaohua and Unterthiner, Thomas and Dehghani, Mostafa and Minderer, Matthias and Heigold, Georg and Gelly, Sylvain and Uszkoreit, Jakob and Houlsby, Neil},
journal={ICLR},
year={2021}
}
```
**arXiv预印本链接**: [arXiv:2010.11929](https://arxiv.org/abs/2010.11929)
---
### 相关拓展工作
- **DeiT**(《Training data-efficient image transformers & distillation through attention》, ICML 2021)通过知识蒸馏策略,显著减少ViT对大规模预训练数据的依赖[^2]。
- **Swin Transformer**(《Swin Transformer: Hierarchical Vision Transformer using Shifted Windows》, ICCV 2021)引入层级结构和局部窗口注意力,提升ViT在密集预测任务(如检测、分割)中的性能[^3]。
---
阅读全文
相关推荐















