【NLP】Attention原理和源码解析

最新推荐文章于 2025-05-12 16:43:29 发布

沐漜

最新推荐文章于 2025-05-12 16:43:29 发布

阅读量1.5k

点赞数

分类专栏： NLP 文章标签： attention

NLP 专栏收录该内容

22 篇文章

订阅专栏

本文围绕Attention机制展开，介绍其核心思想，即在解码阶段对输入信息赋予不同权重。解析了原理，阐述权重计算的三种常见方法，还对模型进行分类，如Soft/Hard、Global/Local、Self Attention等。同时分析了优缺点，并给出TF源码解析参考。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在这里插入图片描述

内容：

1. 核心思想
2. 原理解析（图解+公式）
3. 模型分类
4. 优缺点
5. TF源码解析

1. 核心思想

Attention的思想理解起来比较容易，就是在decoding阶段对input中的信息赋予不同权重。在nlp中就是针对sequence的每个time step input，在cv中就是针对每个pixel。

2. 原理解析

针对Seq2seq翻译来说，rnn-based model差不多是图1的样子：
在这里插入图片描述
而比较基础的加入attention与rnn结合的model是下面的样子（也叫soft attention）：

其中 $\alpha_{0}^1$ 是 $h_{0}^1$ 对应的权重，算出所有权重后会进行softmax和加权，得到 c^0 。

在这里插入图片描述
可以看到Encoding和decoding阶段仍然是rnn，但是decoding阶使用attention的输出结果 $c^0, c^1$ 作为rnn的输入。

那么重点来了，权重 $\alpha$ 是怎么来的呢？常见有三种方法：

$\alpha_{0}^1=cos\_sim(z_0, h_1)$
$\alpha_0 =neural\_network(z_0, h)$
$\alpha_0 = h^TWz_0$

思想就是根据当前解码“状态”判断输入序列的权重分布。

如果把attention剥离出来去看的话，其实是以下的机制：
在这里插入图片描述
输入是query(Q), key(K), value(V)，输出是attention value。如果与之前的模型对应起来的话，query就是 $z_0$ , $z_1$ ，key就是 $h_1$ , $h_2$ , $h_3$ , $h_4$ ，value也是 $h_1$ , $h_2$ , $h_3$ , $h_4$ 。模型通过Q和K的匹配计算出权重，再结合V得到输出：