【大模型必备知识点】大白话讲解 Transformer 的核心：自注意力机制

最新推荐文章于 2025-09-13 15:58:47 发布

君正则

最新推荐文章于 2025-09-13 15:58:47 发布

阅读量681

点赞数 12

CC 4.0 BY-SA版权

分类专栏：语言大模型文章标签： transformer 深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41782172/article/details/151617995

语言大模型专栏收录该内容

2 篇文章

订阅专栏

#VibeCoding·九月创作之星挑战赛#

文章目录

一、自注意力机制本质是一种动态权重分配机制

对于序列中的每个词元，自注意力会根据 “词元间的语义相关性”，为其他词元分配不同的权重，最终通过加权求和生成该词元的上下文感知表示。

二、如何计算权重

自注意力权重的计算依赖三个关键向量 ——Query（查询，Q）、Key（键，K）、Value（值，V），这三个向量共同构成了 “语义匹配 - 信息提取” 的逻辑，类比于信息检索：

Query：当前词元的检索需求，即 “我想找和我相关的信息”；
Key：所有词元的信息标签，用于与 Query 匹配，判断 “我是否符合你的需求”；
Value：所有词元的具体信息内容，当 Key 与 Query 匹配时，Value 会被赋予相应权重并参与最终计算。

以神经网络生成特征向量的方式得到 Q、K、V

大家都说 Q、K、V 由输入序列的嵌入表示（Embedding）通过线性变换生成，其实就是神经网络全连接层计算特征向量：

$\cdot W_Q$

$\cdot W_K$

$\cdot W_V$

如下图“Thinking Machines”（输入序列长度为 2）的例子所示， $X_1$ 与左侧 $W_Q$ 做矩阵运算了就得到 $q_1$ ， $X_2$ 与左侧 $W_Q$ 做矩阵运算了就得到 $q_2$ ， $k, v$ 同理。

而这里的 $W_Q$ 、 $W_K$ 、 $W_V$ 都是神经网络中全连接层的可学习参数，通过反向传播进行更新。

三、自注意力的完整计算流程：四步生成上下文表示

步骤 1：计算注意力分数（语义匹配度）

注意力分数用于衡量 “当前词元的 Query 与其他词元的 Key 的匹配程度”，计算方式为Query 与 Key 的点积：

$Score(q_i, k_j) = q_i \cdot k_j^T$

注意先不要深究为什么有效，这里是不是已经计算得出了一个值！！！而论文为了使这个值有意义，就说当前词元的 Query 与其他词元的 Key （自注意力的话其他词元就是自己）的匹配程度。【出于这个值要表示匹配程度的思想，后续进行了步骤二分数缩放和步骤三softmax转为概率值的操作】

对 “Thinking Machines” 序列：

第 1 个词元 “Thinking” 的 Query 向量 $q_1$ 与自身 Key 向量 $k_1$ 点积： $q_1 \cdot k_1$ ；
第 1 个词元 “Thinking” 的 Query 向量 $q_1$ 与第 2 个词元 “Machines” 的 Key 向量 $k_2$ 点积： $q_1 \cdot k_2$ ；

步骤 2：分数缩放（Scaling）

为避免 Q/K 维度 $d_k$ 过大导致点积结果数值过大，进而使 Softmax 函数进入 “梯度消失区域”（Softmax 对大数值敏感，输出会趋近于 0 或 1，梯度接近 0），需对分数进行缩放：

$Scaled\_Score = \frac{Score(q_i, k_j)}{\sqrt{d_k}}$

softmax

对 “Thinking Machines” 的分数缩放后：

* $112/8 = 14$ ， $96/8 = 12$ ；

缩放后的分数矩阵为 $\begin{bmatrix} 14 & 12 \end{bmatrix}$ （仅展示 “Thinking” 对其他词元的分数）。

步骤 3：Softmax 归一化（权重分配）

通过 Softmax 函数将缩放后的分数转换为 “注意力权重”，确保权重总和为 1，且数值越大表示该词元对当前词元的贡献越大：

对 “Thinking” 的缩放分数进行 Softmax：

$\left( \frac{e^{14}}{e^{14}+e^{12}}, \frac{e^{12}}{e^{14}+e^{12}} \right) \approx (0.88, 0.12)$

步骤 4：加权求和（生成上下文表示）

将注意力权重与对应的 Value 向量相乘，再求和，得到当前词元的自注意力输出（包含全局上下文信息的特征向量）：

其中 $v_j$ 是第 $j$ 个词元的 Value 向量。

dot product

对 “Thinking” 这个词元，自注意力的输出结果：

$Attention\_Output(1) = 0.88 \cdot v_1 + 0.12 \cdot v_2$

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

君正则 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。