《Unsupervised Inductive Graph-Level Representation Learning via Graph-Graph Proximity》阅读笔记

最新推荐文章于 2024-02-26 18:32:58 发布

weixin_45285795

最新推荐文章于 2024-02-26 18:32:58 发布

阅读量826

点赞数 2

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/weixin_45285795/article/details/119533132

该博客介绍了《Unsupervised Inductive Graph-Level Representation Learning via Graph-Graph Proximity》的研究，该研究关注图与图之间的相似性，以无监督的方式学习图的嵌入表示。模型通过多尺度邻居聚合（MSNA）克服图过平滑问题，适用于不同的度量标准。实验部分展示了模型在图分类和相似性排序任务上的应用，以及对超参数敏感性的分析。结果显示，尽管在某些数据集上性能并非最优，但模型能有效捕捉图结构的相似性并实现有意义的可视化效果。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

《Unsupervised Inductive Graph-Level Representation Learning via Graph-Graph Proximity》

前言
一、模型
- 1.节点向量更新
- 2.生成图向量（MSNA）
二、距离
- 1.定义
- 2.损失
三、实验

前言

这篇文章是做图与图之间的相似性的，可以用于下游的图分类任务等。一般的模型都是根据节点的向量，节点间的邻接关系等“图内”信息来得到该图的表示向量的，这往往忽视了图与图之间的关系。

该模型以完全无监督的、归纳式的方法学习出图的嵌入表示。

论文地址：https://arxiv.org/abs/1904.01098

代码地址：https://github.com/yunshengb/UGraphEmb/tree/3834164acb6295118e708a2a48d3620fc2152f67

一、模型

在这里插入图片描述
每一个图都会经过MSNA生成一个向量，然后根据该向量计算图与图之间的距离。

1.节点向量更新

这里直接用了GIN：
在这里插入图片描述

2.生成图向量（MSNA）

现存的一些方法仅简单的用节点向量的加和、平均或稍复杂的聚合方法生成的向量作为该图的全局向量。然而，作者提出的这个模型旨在把每个图变成嵌入空间的一个点，并且能够保留图与图之间的相似程度。

1. 在不同层次上捕捉结构差异。随着聚合层数的增多，过平滑问题越来越凸显，模型很难发现相似的图之间的微小差异。

2. 对不同的度量标准都适用。对节点向量的简单聚合限制了图嵌入模型的性能。

为了使模型有上述两个效果，作者提出了MSNA：

在这里插入图片描述
$∣ ∣$ 代表拼接， $K$ 为卷积层数， $A T T$ 则为多头注意机制。

在这里插入图片描述
$N$ 为节点数量， $\sigma(x)=\frac{1}{1+exp(-x)}$ ， $\Theta^{(k)}∈R^{D × D}$ 。为了让分配给节点的注意力系数对不同的度量标准都适用，这里的注意力系数由节点自身的向量以及可学习矩阵共同决定。

二、距离

1.定义

(1).用标签定义。有相同标签的图相似，但该方法不能区分有相同标签的不同的图。

(2).用该领域的知识或由该领域的专家定义。成本高。

(3).用被广泛使用的度量定义。GED及MCS等。

2.损失

GED：
在这里插入图片描述

MCS:
在这里插入图片描述

当用于不同的下游任务时，可以加上相应的损失以提高模型的性能。如做图分类任务时，可以再加入有监督损失。

三、实验

1.数据集

在这里插入图片描述

2.问题1

Q1：将生成的图向量应用于图分类和相似度排序等下游任务时，其质量有多高？

节点分类：

在这里插入图片描述

专门为图分类设计的模型（GRAPH KERNELS, GRAPH2VEC, and UGRAPHEMB）在性能上要比专门为节点分类设计的模型（NETMF and GRAPHSAGE）要好。这说明好的节点向量未必就能生成好的图向量。

本文提出的模型在WEB和NCI109两个数据集上的表现不是top2，这可能与这两个数据集的标签较多有关，并且该模型直接用标签的one-hot向量作为节点的初始属性，这限制了模型捕捉差异的能力。另一个原因可能是GED或许并不能很好的识别出不同标签的样本之间的微小差异。

相似性排序：

在这里插入图片描述

3.问题2

生成的图向量能否提供有意义的可视化效果？

在这里插入图片描述

显然，本文提出的模型把有相似子结构的图聚集在一起，即相似度高。

在这里插入图片描述
虽然模型给出的排序与实际排序并不完全一致，但相对位置和排序还是比较合理的。

4.问题3

图向量的质量是否对超参数敏感？

在这里插入图片描述
这里主要探讨了嵌入维度以及训练集样本数对模型性能的影响。

5.MSNA的性能

在这里插入图片描述