【小白学AI系列】NLP 核心知识点（五）Transformer介绍

本文链接：https://blog.csdn.net/qq_40855242/article/details/145370464

Transformer

Transformer 是一种基于自注意力机制（Self-Attention Mechanism）的深度学习模型，首次由 Vaswani 等人于 2017 年在论文《Attention is All You Need》中提出。与 RNN 和 LSTM 不同，Transformer 不需要依靠序列顺序进行递归，而是通过全局注意力机制一次性处理整个输入序列，从而具备了更高的计算效率和更强的并行化能力。

Transformer 的提出彻底改变了自然语言处理（NLP）和其他领域的发展，广泛应用于机器翻译、文本生成、语言理解、图像识别等任务。

Transformer 的结构

Transformer 模型由两部分组成：

编码器（Encoder）：用于将输入序列转化为上下文相关的表示。
解码器（Decoder）：用于根据编码器的输出生成新的序列（如翻译成另一种语言）。

Transformer 的基本结构如下：

Transformer
├── 编码器（Encoder）
│   ├── 多头自注意力机制（Multi-Head Attention）
│   ├── 前馈神经网络（Feed-Forward Neural Network）
│   └── 残差连接与层归一化（Residual Connection + Layer Normalization）
│
└── 解码器（Decoder）
    ├── 多头自注意力机制（Multi-Head Attention）
    ├── 编码器-解码器注意力机制
    ├── 前馈神经网络
    └── 残差连接与层归一化