我们就做到了由一整个sequence得到b1。input vector(a)-------->SELF ATTENTION---------->output(b)那如果从矩阵乘法的角度去理解SELF-ATTENTION呢？

### 自注意力机制（Self-Attention）的矩阵乘法解释 #### 输入与输出自注意力机制的核心在于其输入 \( I \) 和输出 \( O \)，其中 \( I \) 是由一系列向量组成的矩阵，这些向量拼接成矩阵的列[^1]。而最终的输出 \( O \) 则是由经过加权处理后的值向量组成[^2]。 #### 参数矩阵的作用为了实现这一过程，自注意力机制引入了三个可学习的参数矩阵：\( W_q \), \( W_k \), 和 \( W_v \)。这三个矩阵分别用于生成查询向量 (Query Vector)、键向量 (Key Vector) 和值向量 (Value Vector)。 #### 查询、键和值的计算具体来说，给定输入矩阵 \( I \)，可以通过以下方式计算 Query (\( Q \))、Key (\( K \)) 和 Value (\( V \))： \[ Q = I \cdot W_q, \quad K = I \cdot W_k, \quad V = I \cdot W_v \] 这里，\( W_q \), \( W_k \), 和 \( W_v \) 是权重矩阵，它们将原始输入转换为适合后续计算的形式[^3]。 #### Attention Score 的计算接着，通过计算 Query 向量与 Key 向量之间的点积来获得 attention scores: \[ S_{ij} = \text{softmax}\left(\frac{Q_i \cdot K_j}{\sqrt{d}}\right) \] 这里的 \( d \) 表示向量维度，除以 \( \sqrt{d} \) 可以防止点积过大而导致 softmax 函数梯度消失。 #### 输出的生成最后一步是利用上述 attention scores 对应地加权求和 Value 向量，从而得到输出矩阵中的每一行： \[ O_i = S_i \cdot V \] 值得注意的是，在实际操作中，所有的 \( b_1, b_2, b_3, ... \) 并不是逐一计算出来的，而是通过高效的矩阵运算一次性完成。 #### 效率比较从效率角度来看，当数据规模增大时，基于矩阵运算的 self-attention 方法相较于传统的 CNN 或 RNN 更具优势[^4]。这是因为 self-attention 能够并行化处理序列中的每一个位置的信息，而不像 RNN 那样受限于顺序依赖关系。 ```python import numpy as np def scaled_dot_product_attention(Q, K, V): # 计算 dot product scores = np.matmul(Q, K.T) / np.sqrt(K.shape[-1]) # 应用 softmax 得到 attention weights attn_weights = np.softmax(scores, axis=-1) # 加权求和 value vectors output = np.matmul(attn_weights, V) return output, attn_weights ```

阅读全文

我们就做到了由一整个sequence得到b1。input vector(a)-------->SELF ATTENTION---------->output(b)那如果从矩阵乘法的角度去理解SELF-ATTENTION呢？

大家在看

ISIS Draw 2.5

最新飞利浦监护仪开发接口文档

电赛省一作品 盲盒识别 2022TI杯 10月联赛 D题

新版3Dmax中导出.x文件2020版64位

动态供应链环境下的供应商分类评价研究

最新推荐

PostgreSQL DBA认证 PGCE-E-092-中级SQL题目

SVPWM-simulink仿真

WI-FI技术原理以及应用

路由过滤命令详解route-map

WS-BPEL 2.0 primer（中文版）

PKID查壳工具最新版发布，轻松识别安卓安装包加壳

【心理学火柴人视频制作秘籍】：Coze工作流全攻略，带你从入门到精通

frame.onload不执行？

一键关闭系统更新的工具介绍

罗技GHUB驱动21.03.24版自定义设置与性能优化：专家级使用技巧

电赛省一作品盲盒识别 2022TI杯 10月联赛 D题