理解注意力机制：Bahdanau与LuongAttention-CSDN博客

本文链接：https://blog.csdn.net/qq_42522262/article/details/87926093

注意力机制解决seq2seq模型中长文本信息丢失问题。分为BahdanauAttention和LuongAttention，通过加权平均encoder隐藏状态来突出重要信息。Bahdanau使用前一时刻的解码器状态，Luong使用当前时刻状态，得分计算方式有所不同。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

为什么要引入注意力机制？
在原本的 encoder-decoder 模型中，无论输入的文本序列有多长，都会讲信息压缩成一个固定维度的向量 c 。维度固定，存储的信息量也就固定了，那么对于长文本序列，会丢失很多信息，这是我们不想看到的。注意力机制的引入就是为了解决这个问题。
注意力机制

分两种：BahdanauAttention 与 LuongAttention

BahdanauAttention
图片来自论文
加了注意力机制以后，向量 c 的维度依然是固定的，但是在每个时间步， c 的值都会改变，或者说从原来的的单个向量 c 变成了一组向量 $c_i$ 。

$c_i 的公式$ ：
$c_i = \sum_{j=1}^T\alpha_{ij}h_j$
而
$\alpha_{ij} = \frac{exp(e_{ij})}{\sum_{k=1}^Texp(e_{ik})},$
$e_{ij} = a(s_{i-1}, h_j) = v_a^Ttanh(W_as_{i-1}+U_ah_j)$
其中 i 代表输出的第 i 个位置， j 代表输入的第 j 个位置。
a 代表一种分数的计算方式。最简单的方式就是点积了
$e_{ij}$ （或者 $\alpha_{ij}$ ）衡量了输入位置 j 和输出位置 i 的匹配程度，或者说是相关性,越相关，值越大，对应了权重的概念。
$c_i$ 代表了对 encoder hidden states 的加权平均，权重是 $\alpha_{ij}$ .
这样在不同阶段 $c_{i}$ 的信息重要程度不同，就不用担心遗失重要的信息了。

LuongAttention

公式如下：
$c_i = \sum_{j=1}^T\alpha_{ij}h_j$
$\alpha_{ij} = \frac{exp(e_{ij})}{\sum_{k=1}^Texp(e_{ik})},$
$e_{ij}= \begin{cases} h_j^Ts_i& \text{dot}\\ h_j^TW_as_i& \text{general} \\ v_a^Ttanh{[h_j^T,s_i]} &\text{concat} \end{cases}$
注：为了和上文保持一致，我将 $\overline{h_s}$ 换成了 $s_i$ , $h_t$ 换成了 $h_j$ 。

它们的不同点：

在计算第 i 个位置的分数时，BahdanauAttention 选择了 $s_{i-1}$ , 而 LoungAttention 选择了 $s_i$ ；
BahdanauAttention 对 Encoder 和 Decoder 的双向的 RNN 的 state 拼接起来作为输出，LuongAttention 仅使用最上层的 RNN 输出
得分的计算方式