Self-Attention论文
时间: 2025-03-09 10:04:53 浏览: 36
### Self-Attention机制的相关学术论文
Self-Attention机制作为深度学习中的一个重要组成部分,已经被广泛应用于自然语言处理和其他领域。以下是几篇具有代表性的关于Self-Attention机制的学术论文:
#### 1. 原始Transformer架构引入Self-Attention
原始的Self-Attention概念是在Vaswani等人提出的Transformer模型中首次被介绍并广泛应用。这篇论文不仅介绍了Self-Attention的工作原理,还展示了它如何显著提升机器翻译任务的效果。
```plaintext
@article{vaswani2017attention,
title={Attention is all you need},
author={Vaswani, Ashish and Shazeer, Noam and Parmar, Niki and Uszkoreit, Jakob and Jones, Llion and Gomez, Aidan N and Kaiser, {\L}ukasz and Polosukhin, Illia},
journal={Advances in neural information processing systems},
volume={30},
}
```
#### 2. 自注意力机制在视觉领域的扩展
尽管最初设计用于NLP任务,自注意力机制也被成功迁移到计算机视觉领域。例如,在图像分类、目标检测等多个CV子域取得了优异的成绩。
```plaintext
@inproceedings{wang2018non,
title={Non-local neural networks},
author={Wang, Xiaolong and Girshick, Ross and Gupta, Abhinav and He, Kaiming},
booktitle={Proceedings of the IEEE conference on computer vision and pattern recognition},
pages={7794--7803},
year={2018}
}
```
#### 3. 改进版多头自注意结构的研究
针对标准Self-Attention计算复杂度高的缺点,研究人员探索了多种优化方案来提高效率而不损失性能。这些改进对于大规模预训练模型尤为重要。
```plaintext
@article{kitaev2020reformer,
title={Reformer: The efficient transformer},
author={Kitaev, Nikita and Lewkowycz, Łukasz and Kovnatsky, Artyom},
journal={International Conference on Learning Representations},
year={2020}
}
```
上述文献提供了不同角度理解Self-Attention机制的机会,并且反映了该技术从理论到实践的发展过程[^1]。
阅读全文
相关推荐


















