ten自我注意力机制

### 自注意力机制概述自注意力机制（Self-attention Mechanism）允许模型在处理序列数据时关注不同位置的信息，从而增强对上下文的理解[^1]。这种机制通过计算查询（Query）、键（Key）和值（Value）三者的交互来实现。 #### 查询、键和值的定义对于每一个输入token，都会生成三个向量：查询（Q）、键（K）以及值（V）。这些向量通常由线性变换得到： ```python import torch.nn as nn class AttentionHead(nn.Module): def __init__(self, d_model, d_k): super().__init__() self.query = nn.Linear(d_model, d_k) self.key = nn.Linear(d_model, d_k) self.value = nn.Linear(d_model, d_k) def forward(self, x): Q = self.query(x) K = self.key(x) V = self.value(x) return Q, K, V ``` #### 计算注意力分数接着会利用上述产生的查询、键来进行点积操作，并除以根号下维度大小以稳定梯度传播过程。之后再经过softmax函数转换成概率分布形式作为最终得分[^2]。 ```python def scaled_dot_product_attention(Q, K, V, mask=None): """Compute the attention scores and apply them to values.""" d_k = Q.size(-1) scores = torch.matmul(Q, K.transpose(-2, -1)) / math.sqrt(d_k) if mask is not None: scores = scores.masked_fill(mask == 0, -1e9) p_attn = F.softmax(scores, dim=-1) output = torch.matmul(p_attn, V) return output, p_attn ``` #### 多头注意力结构为了捕捉更丰富的特征表示，多头注意力被引入到架构当中。这种方式能够并行地执行多次独立的关注运算并将结果拼接起来形成新的表达方式。 ```python class MultiHeadAttention(nn.Module): def __init__(self, num_heads, d_model, dropout=0.1): super().__init__() assert d_model % num_heads == 0 self.d_k = d_model // num_heads self.num_heads = num_heads self.linears = clones(nn.Linear(d_model, d_model), 4) self.attn = None self.dropout = nn.Dropout(p=dropout) def forward(self, query, key, value, mask=None): if mask is not None: # Same mask applied to all heads. mask = mask.unsqueeze(1) nbatches = query.size(0) # Do all linear projections in batch from d_model => h x d_k query, key, value = \ [l(x).view(nbatches, -1, self.num_heads, self.d_k).transpose(1, 2) for l, x in zip(self.linears, (query, key, value))] # Apply attention on all projected vectors in batch. x, self.attn = scaled_dot_product_attention(query, key, value, mask=mask) # Concatenate using a view operation then final linear projection. x = x.transpose(1, 2).contiguous().view(nbatches, -1, self.num_heads * self.d_k) return self.linears[-1](x) ```

阅读全文

ten自我注意力机制

相关推荐

tensorflow keras使用xception进行图像分类并添加注意力机制

Dev-cPP2.rar_Number Ten

Dev-cPP-1.rar_Number Ten

Ten Ways to Get People to Change

自注意力机制：从Self Attention到Transformer的理解

C#类库封装：简化SDK调用实现多功能集成，构建地磅无人值守系统

基于STM32F1的BLDC无刷直流电机与PMSM永磁同步电机源码解析：传感器与无传感器驱动详解

基于Java的跨平台图像处理软件ImageJ：多功能图像编辑与分析工具

MATLAB语音识别系统：基于GUI的数字0-9识别及深度学习模型应用 · GUI v1.2

c语言通讯录管理系统源码.zip

基于MATLAB的电力与天然气市场出清及多方博弈行为分析

c语言学生信息系统.zip

Jlink驱动V7.9免费下载

微电网仿真：Matlab Simulink下的风光储微电网模型及永磁直驱风机并网仿真

基于C#实现的wifi室内定位与人数统计项目+源码+项目文档（毕业设计&课程设计&项目开发）

CARSIM与Simulink联合仿真——ACC系统的Cpar文件与Mdl模型文件使用指南 自适应巡航控制

K. K. 共振 声子晶体 声子晶体 局域共振 声子晶体梁 源码

三菱伺服电机编码器ID修改器：全系列兼容的工业自动化调试工具 - 工业自动化 (07月)

大家在看

《极品家丁（七改版）》（珍藏七改加料无雷精校全本）(1).zip

密码：:unlocked::sparkles::locked:创新，方便，安全的加密应用程序

HkAndroidSDK.zip

matlab的欧拉方法代码-BEM_flow_simulation:计算流体力学：使用边界元方法模拟障碍物周围/附近的流动

基于YOLO网络的行驶车辆目标检测matlab仿真+操作视频

最新推荐

给！最详版的Jupyter NBextensions 插件介绍

利用python的mlxtend实现简单的集成分类器

解决tensorflow训练时内存持续增加并占满的问题

深入学习Android中的Intent

Android Activity中使用Intent实现页面跳转与参数传递的方法

Teleport Pro教程：轻松复制网站内容

【跨平台开发者的必读】：解决Qt5Widgetsd.lib目标计算机类型冲突终极指南

普通RNN结构和特点

探讨通用数据连接池的核心机制与应用

【LabVIEW网络通讯终极指南】：7个技巧提升UDP性能和安全性

CARSIM与Simulink联合仿真——ACC系统的Cpar文件与Mdl模型文件使用指南自适应巡航控制

K. K. 共振声子晶体声子晶体局域共振声子晶体梁源码