序列模型中的注意力机制

最新推荐文章于 2025-05-12 16:43:29 发布

火贪三刀

最新推荐文章于 2025-05-12 16:43:29 发布

阅读量1.7w

点赞数 2

CC 4.0 BY-SA版权

分类专栏：自然语言处理文章标签： nlp 注意力机制序列模型

本文链接：https://blog.csdn.net/shijing_0214/article/details/75194103

注意力机制（attention mechanism）被引入到NLP的Sequence to Sequence模型中，以解决长序列编码信息丢失和解码时上下文区分不明确的问题。在RNN Encoder-Decoder框架下，通过计算加权平均的隐藏状态向量ci，改善了传统模型中固定长度向量c的表现。解码器的当前时刻输出yt依赖于上一时刻的输出yt-1、状态st和加权上下文向量ct，其中权重αij根据输入序列中各部分的相关性动态分配。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

现在很多研究的NLP问题都可以转换成一个Sequence to Sequence模型来解决，比如说机器翻译，智能问答，语音识别等。
Sequence to Sequence模型由一个encoder和一个decoder组成，encoder完成编码工作，将不同的输入编码成一个定长的向量，decoder则完成解码工作，对编码器的结果进行解码输出，例如在中英文翻译中，首先编码器将中文编码成一个向量表示，接着解码器把该向量解码成一个英文表示，完成翻译过程。

但是序列模型会有两个问题，不管输入有多长，它都会把它编码成一个固定长度的向量，若句子比较长，则编码结果会可能会损失较多想信息，这将不利于接下来的解码工作；其次在解码的时候，每个时刻的输出在解码过程中用到的上下文向量是相同的，没有做区分，这也会给解码带来问题。为了解决这样的问题，会给模型加入注意力机制（attention mechanism）。

RNN Encoder-Decoder
这里写图片描述
首先讲一下简单的RNN 编码解码器框架，给定输入x =( $x_1,x_2,...,x_T$ )，编码器会利用RNN将其转换成一个向量c：