GAT多头注意力讲解

### GAT 中多头注意力机制的工作原理及其实现 #### 工作原理在图注意力网络 (GAT, Graph Attention Network) 中，多头注意力机制通过多个独立的注意力计算通道来增强模型的表现力和稳定性。具体来说，每个注意力头会单独学习节点之间的不同关系模式，并最终将这些结果组合起来以获得更加丰富的特征表示[^3]。为了实现这一点，GAT 首先定义了一个共享权重矩阵 \( W \)，用于线性变换输入节点特征向量。接着，在每一个注意力头上分别执行如下操作： 1. **计算注意力系数** 对于每一对相邻节点 \( i \) 和 \( j \)，基于它们经过线性变换后的特征向量 \( h_iW \) 和 \( h_jW \)，使用一个可训练参数向量 \( a \in R^{F'} \) 来衡量两者的重要性得分： \[ e_{ij} = LeakyReLU(a^T [Wh_i || Wh_j]) \] 这里 \(||\) 表示拼接操作，\(LeakyReLU\) 是激活函数[^1]。 2. **标准化注意力系数** 使用 Softmax 函数对邻域内的所有节点进行归一化处理，得到最终的注意力权重： \[ \alpha_{ij} = softmax(e_{ij}) = \frac{\exp(e_{ij})}{\sum_{k \in N(i)} \exp(e_{ik})} \] 3. **加权求和** 将邻居节点的特征按照其对应的注意力权重聚合到中心节点上： \[ h'_i = \sigma(\sum_{j \in N(i)} \alpha_{ij}(Wh_j)) \] 其中 \( N(i) \) 表示节点 \( i \) 的直接邻居集合，而 \( \sigma \) 则是一个非线性的激活函数。 #### 多头注意力的具体实现方式由于单个注意力头可能无法捕捉所有的潜在关联信息，因此引入了多头注意力的概念。即并行运行若干组上述过程（通常称为 “head”），并将各 head 输出的结果串联或平均作为最后的输出。假设总共有 \( K \) 个 heads，则第 k 个 head 的输出可以写成： \[ z_k = AGGREGATE(ATTENTION(k)(h_1,...,h_N)) \] 其中 ATTENTION(k) 表达的是第 k 种形式下的注意力建模方法；AGGREGATE 负责汇总来自各个 attention head 的贡献[^4]。当采用 concat 方法时， \[ h' = ||_{k=1}^K z_k \] 如果选择 average 方式则有, \[ h' = mean(z_1 ... z_K). \] 以下是 Python 实现的一个简单例子: ```python import torch import torch.nn as nn import torch.nn.functional as F class MultiHeadAttentionLayer(nn.Module): def __init__(self, input_dim, output_dim, num_heads, leaky_relu_negative_slope=0.2): super(MultiHeadAttentionLayer, self).__init__() self.input_dim = input_dim self.output_dim = output_dim self.num_heads = num_heads # 定义线性变换层 self.W = nn.Parameter(torch.Tensor(input_dim, output_dim * num_heads)) self.a = nn.ParameterList([nn.Parameter(torch.Tensor(output_dim*2, 1)) for _ in range(num_heads)]) # 初始化参数 nn.init.xavier_uniform_(self.W.data) for param in self.a: nn.init.xavier_uniform_(param.data) def forward(self, h, adj_matrix): batch_size, node_num, feature_dim = h.size() # 应用线性变换 Wh = torch.matmul(h, self.W).view(batch_size, node_num, self.num_heads, -1) results = [] for idx_head in range(self.num_heads): # 提取当前头部的数据 Wh_single_head = Wh[:, :, idx_head, :] # 构建边缘特征 edge_features = self._build_edge_features_for_each_node_pair(Wh_single_head) # 计算注意力分数 attention_scores = F.leaky_relu( torch.matmul(edge_features, self.a[idx_head]), negative_slope=leaky_relu_negative_slope) mask = ~adj_matrix.bool().unsqueeze(-1) masked_attention_scores = attention_scores.masked_fill(mask, float('-inf')) attentions = F.softmax(masked_attention_scores.squeeze(), dim=-1) # 更新节点特征 new_h_per_head = torch.bmm(attentions.unsqueeze(dim=1), Wh_single_head).squeeze() results.append(new_h_per_head) final_result = torch.cat(results, dim=-1) if len(results)>1 else results[0] return final_result @staticmethod def _build_edge_features_for_each_node_pair(node_embeddings): src_nodes_emb = node_embeddings.unsqueeze(2) # shape: B x N x 1 x D' dst_nodes_emb = node_embeddings.unsqueeze(1) # shape: B x 1 x N x D' combined_embs = torch.cat((src_nodes_emb.expand(-1,-1,node_embeddings.shape[-2],-1), dst_nodes_emb.expand(-1,node_embeddings.shape[-2],-1,-1)),dim=-1) return combined_embs.reshape(combined_embs.shape[:3]+ (-1,)) ```

阅读全文

GAT多头注意力讲解

相关推荐

图神经网络——图注意力网络（GAT）原始论文与源码

基于图注意力模型（GAT）的交通网络流量预测

图神经网络-图注意力网络（GAT）原始论文与源码

GAT多头注意力机制

gat的多头注意力机制

GAT的多头注意力机制原理

详细介绍gat的多头注意力机制

GAT图注意力神经网络

GAT图注意力python代码

图注意力网络gat讲解

注意力机制KB-GAT.zip

自然语言处理NLP——图神经网络与图注意力模型（GNN、GCN、GAT）_图注意力网络-CSDN.html

PyTorch实现GAT图注意力网络教程与代码解析

图注意力网络详解：GAT的非对称注意力机制

图注意力网络GAT代码实现详解

图注意力网络GAT简介与实战

【GNN关键技术和算法】图注意力网络（GAT）：自注意力机制在图节点上的应用。

图注意力网络gat图

图注意力神经网络GAT评分

图注意力网络（GAT）

深入探讨HBASE | 基础知识-系统架构-数据存储-WAL log

铁轨裂纹缺陷检测数据集速查 VOC格式

大家在看

vlcBFQ.rar

TongWeb最新版本8.0

KR C4 电气元器件检修服务 - 系统技术.pdf

轧钢 加热炉 智能 燃烧资料 一百多篇

rk3588 linux 系统添加分区和修改分区

最新推荐

【地球科学与遥感】基于Google Earth Engine的哨兵2号数据分析：研究区域NDVI、LST及城市热岛效应评估系统设计

Typora下载问题解决：资源安装包实测可用

网络嗅探器实战进阶：掌握高效数据捕获与准确分析的6大策略

system verilog task中用宏定义传参

Java开发的Help GUI 1.1源码：可视化组件库详解

网络嗅探器全攻略：从入门到精通的15大技巧与实践案例

RTL8720DN-VA1-CG后面的VA1-CG是什么意思

CCPD2019车牌数据集：10000张带YOLO标签图片

【精准温度测量与HP303B校准】：掌握这些高级技巧，提升测量准确性

那如果我加上turbulenceProperties，是不是这么写FoamFile { version 2.0; format ascii; class dictionary; object turbulenceProperties; } // * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * * // simulationType laminar;

轧钢加热炉智能燃烧资料一百多篇