首页transformer 架构？

transformer 架构？

时间: 2025-02-07 10:03:21 浏览: 41

Transformer架构是一种基于自注意力机制的深度学习模型，最初由论文《Attention is All You Need》于2017年提出。它彻底改变了自然语言处理(NLP)领域，并成为许多先进AI应用的核心技术之一。以下是关于Transformer架构的一些关键点： ### 1. 编码器 - 解码器结构整个网络分为编码器(Encoder)和解码器(Decoder)，它们各自包含若干层堆叠而成。 - **编码器**负责将输入序列转换成高维表示； - **解码器**则依据这个表示生成目标输出序列；这两部分通过位置编码(Positional Encoding)保持了顺序信息，在训练过程中不断优化参数直至得到较好的结果。 ### 2. 自注意力(Self-Attention) 这是Transformers最核心的部分，允许每个词与其他所有词汇建立联系并加权求和形成新的特征向量。简单来说就是让模型可以“关注”到句子内部不同单词之间的关系而不仅仅是上下文相邻的关系。这种特性使得长距离依赖建模变得更容易、更有效率。 #### 查询(Q) 键(K) 值(V) 的计算过程：对于每一个时间步t的位置上，会构造三个矩阵Q(query), K(key), V(value). 然后利用这三个矩阵来进行缩放点积注意力操作(Scaled Dot-product Attention). 公式表达式如下： \[ \text{Attention}(Q,K,V)=\text { softmax }\left(\frac{Q K^{T}}{\sqrt{d_{k}}}+M a s k \right)V \] 其中dk是指K（或V）维度大小; Mask是一个掩蔽矩阵用于防止某些特定连接影响最终输出. ### 3. 残差连接与归一化为了避免深层神经网络可能出现梯度消失的问题以及加速收敛速度，每经过一层都会加上残差块并且做Layer Normalization (LN) 来标准化数据分布情况.

阅读全文