transformer 架构?
时间: 2025-02-07 10:03:21 浏览: 41
Transformer架构是一种基于自注意力机制的深度学习模型,最初由论文《Attention is All You Need》于2017年提出。它彻底改变了自然语言处理(NLP)领域,并成为许多先进AI应用的核心技术之一。
以下是关于Transformer架构的一些关键点:
### 1. 编码器 - 解码器结构
整个网络分为编码器(Encoder)和解码器(Decoder),它们各自包含若干层堆叠而成。
- **编码器**负责将输入序列转换成高维表示;
- **解码器**则依据这个表示生成目标输出序列;
这两部分通过位置编码(Positional Encoding)保持了顺序信息,在训练过程中不断优化参数直至得到较好的结果。
### 2. 自注意力(Self-Attention)
这是Transformers最核心的部分,允许每个词与其他所有词汇建立联系并加权求和形成新的特征向量。简单来说就是让模型可以“关注”到句子内部不同单词之间的关系而不仅仅是上下文相邻的关系。这种特性使得长距离依赖建模变得更容易、更有效率。
#### 查询(Q) 键(K) 值(V) 的计算过程:
对于每一个时间步t的位置上,会构造三个矩阵Q(query), K(key), V(value). 然后利用这三个矩阵来进行缩放点积注意力操作(Scaled Dot-product Attention).
公式表达式如下:
\[ \text{Attention}(Q,K,V)=\text { softmax }\left(\frac{Q K^{T}}{\sqrt{d_{k}}}+M a s k \right)V \]
其中dk是指K(或V)维度大小; Mask是一个掩蔽矩阵用于防止某些特定连接影响最终输出.
### 3. 残差连接与归一化
为了避免深层神经网络可能出现梯度消失的问题以及加速收敛速度,每经过一层都会加上残差块并且做Layer Normalization (LN) 来标准化数据分布情况.
阅读全文
相关推荐














