《Unsupervised Inductive Graph-Level Representation Learning via Graph-Graph Proximity》
前言
这篇文章是做图与图之间的相似性的,可以用于下游的图分类任务等。一般的模型都是根据节点的向量,节点间的邻接关系等“图内”信息来得到该图的表示向量的,这往往忽视了图与图之间的关系。
该模型以完全无监督的、归纳式的方法学习出图的嵌入表示。
论文地址:https://arxiv.org/abs/1904.01098
代码地址:https://github.com/yunshengb/UGraphEmb/tree/3834164acb6295118e708a2a48d3620fc2152f67
一、模型
每一个图都会经过MSNA生成一个向量,然后根据该向量计算图与图之间的距离。
1.节点向量更新
这里直接用了GIN:
2.生成图向量(MSNA)
现存的一些方法仅简单的用节点向量的加和、平均或稍复杂的聚合方法生成的向量作为该图的全局向量。然而,作者提出的这个模型旨在把每个图变成嵌入空间的一个点,并且能够保留图与图之间的相似程度。
1. 在不同层次上捕捉结构差异。随着聚合层数的增多,过平滑问题越来越凸显,模型很难发现相似的图之间的微小差异。
2. 对不同的度量标准都适用。对节点向量的简单聚合限制了图嵌入模型的性能。
为了使模型有上述两个效果,作者提出了MSNA:
∣
∣
||
∣∣代表拼接,
K
K
K为卷积层数,
A
T
T
ATT
ATT则为多头注意机制。
N
N
N为节点数量,
σ
(
x
)
=
1
1
+
e
x
p
(
−
x
)
\sigma(x)=\frac{1}{1+exp(-x)}
σ(x)=1+exp(−x)1,
Θ
(
k
)
∈
R
D
×
D
\Theta^{(k)}∈R^{D × D}
Θ(k)∈RD×D。为了让分配给节点的注意力系数对不同的度量标准都适用,这里的注意力系数由节点自身的向量以及可学习矩阵共同决定。
二、距离
1.定义
(1).用标签定义。有相同标签的图相似,但该方法不能区分有相同标签的不同的图。
(2).用该领域的知识或由该领域的专家定义。成本高。
(3).用被广泛使用的度量定义。GED及MCS等。
2.损失
GED:
MCS:
当用于不同的下游任务时,可以加上相应的损失以提高模型的性能。如做图分类任务时,可以再加入有监督损失。
三、实验
1.数据集
2.问题1
Q1:将生成的图向量应用于图分类和相似度排序等下游任务时,其质量有多高?
节点分类:
专门为图分类设计的模型(GRAPH KERNELS, GRAPH2VEC, and UGRAPHEMB)在性能上要比专门为节点分类设计的模型(NETMF and GRAPHSAGE)要好。这说明好的节点向量未必就能生成好的图向量。
本文提出的模型在WEB和NCI109两个数据集上的表现不是top2,这可能与这两个数据集的标签较多有关,并且该模型直接用标签的one-hot向量作为节点的初始属性,这限制了模型捕捉差异的能力。另一个原因可能是GED或许并不能很好的识别出不同标签的样本之间的微小差异。
相似性排序:
3.问题2
生成的图向量能否提供有意义的可视化效果?
显然,本文提出的模型把有相似子结构的图聚集在一起,即相似度高。
虽然模型给出的排序与实际排序并不完全一致,但相对位置和排序还是比较合理的。
4.问题3
图向量的质量是否对超参数敏感?
这里主要探讨了嵌入维度以及训练集样本数对模型性能的影响。
5.MSNA的性能