Graph Contrastive Learning with Augmentations

最新推荐文章于 2024-10-12 15:23:55 发布

翻译最新推荐文章于 2024-10-12 15:23:55 发布 · 370 阅读

0 ·

CC 4.0 BY-SA版权

原文链接：https://arxiv.org/abs/2010.13902

文章标签：

#人工智能 #深度学习 #机器学习

系列文章目录

具有增强功能的图对比学习 (NeurIPS 2020)

文章目录

系列文章目录
摘要
一、引言
2. Related Work
3 .Methodology
- 3.1 Data Augmentation for Graphs
- 3.2 Graph Contrastive Learning
4 The Role of Data Augmentation in Graph Contrastive Learning
5. Comparison with the State-of-the-art Methods
6 .Conclusion

摘要

图结构数据的可泛化、可迁移和鲁棒的表示学习仍然是当前图神经网络（GNN）的一个挑战。与针对图像数据的卷积神经网络 (CNN) 开发的技术不同，GNN 对自监督学习和预训练的探索较少。在本文中，我们提出了一种图对比学习（GraphCL）框架，用于学习图数据的无监督表示。我们首先设计四种类型的图增强来合并各种先验。然后，我们在四种不同的设置中系统地研究图增强的各种组合对多个数据集的影响：半监督、无监督、迁移学习以及对抗性攻击。结果表明，即使不调整增强程度也不使用复杂的 GNN 架构，我们的 GraphCL 框架也可以生成与最先进的方法相比相似或更好的通用性、可转移性和鲁棒性的图形表示。我们还研究了参数化图增强范围和模式的影响，并在初步实验中观察到进一步的性能提升。我们的代码位于：https://github.com/Shen-Lab/GraphCL。

一、引言

图神经网络（GNN）[1,2,3]遵循邻域聚合方案，在图结构数据中越来越受欢迎。为了在基于图的任务中实现最先进的性能，人们提出了许多 GNN 变体，例如节点或链接分类 [1, 2, 4, 5, 6]、链接预测 [7] 和图分类 [ 8、3]。有趣的是，在大多数图级任务场景中，GNN 都是在监督下进行端到端训练的。对于 GNN，对（自监督）预训练的探索很少（[9] 除外），这种技术通常用作训练遭受梯度消失/爆炸的深层架构的正则化器 [10, 11]。这些有趣现象背后的原因可能是大多数研究的图数据集（如[12]所示）通常在大小上受到限制，并且 GNN 通常具有浅层架构以避免过度平滑[13]或“信息丢失”[14]。

然而，我们认为探索 GNN 预训练方案的必要性。对于图数据集来说，特定于任务的标签可能极其稀缺（例如，在生物学和化学中，通过湿实验室实验进行标记通常是资源密集型和时间密集型的）[15, 9]，而预训练可能是一种有前途的技术，可以减轻问题，就像在卷积神经网络 (CNN) 中一样 [16,17,18]。至于缺乏 GNN 预训练的推测原因：首先，现实世界的图数据可能非常庞大，甚至基准数据集最近也变得越来越大 [12, 19]；其次，即使对于浅层模型，预训练也可以在与更好泛化相关的局部最小值周围的“更好”吸引盆地中初始化参数[11]。因此，我们强调 GNN 预训练的重要性。

与图像 CNN 相比，为图结构数据设计 GNN 预训练方案存在独特的挑战。与图像中的几何信息不同，图数据中存在各种上下文的丰富结构化信息 [20, 21]，因为图是具有不同性质的原始数据的抽象表示（例如，由化学键合的原子组成的分子和社交互动的人的网络）。因此，设计一个对下游任务普遍有利的 GNN 预训练方案是很困难的。用于图级任务的朴素 GNN 预训练方案是重建顶点邻接信息（例如网络嵌入中的 GAE [22] 和 GraphSAGE [23]）。这种方案可能非常有限（如[20]和我们的第5节所示），因为它过分强调邻近性，而这并不总是有益的[20]，并且可能会损害结构信息[24]。因此，需要一个设计良好的预训练框架来捕获图结构数据中的高度异构信息。

最近，在视觉表示学习中，对比学习重新引起了人们的兴趣[25,26,27,18,28]。手工设计的借口任务 [29,30,31,32] 的自我监督依赖于启发式设计，因此可能会限制所学习表征的通用性。相比之下，对比学习旨在通过在不同增强视图下最大化特征一致性来学习表示，利用数据或特定任务的增强[33]来注入所需的特征不变性。如果扩展到预训练 GCN，该框架有可能克服上述基于邻近度的预训练方法的局限性 [22,23,34,35,36,37,38,39]。然而，直接应用于视觉表示学习之外并不容易，并且需要对图表示学习进行重大扩展，从而导致我们下面的创新。

贡献。在本文中，我们开发了对比学习和 GNN 预训练增强功能，以解决图中数据异构性的挑战。（i）由于数据增强是对比学习的先决条件，但在图数据中尚未得到充分探索[40]，因此我们首先设计四种类型的图数据增强，每种类型都对图数据施加一定的先验，并针对范围和参数进行参数化图案。 (ii) 利用它们获得相关视图，我们提出了一种用于 GNN 预训练的新型图对比学习框架（GraphCL），以便可以针对不同的图结构数据学习对专门扰动不变的表示。此外，我们证明 GraphCL 实际上执行互信息最大化，并且在 GraphCL 和最近提出的对比学习方法之间建立了联系，我们证明 GraphCL 可以重写为一个通用框架，统一了图结构数据上的一系列对比学习方法。 (iii) 进行系统研究，评估不同类型数据集上对比不同增强的性能，揭示性能的基本原理，并为采用特定数据集的框架提供指导。 (iv) 实验表明，GraphCL 在半监督学习、无监督表示学习和迁移学习的设置中实现了最先进的性能。它还增强了针对常见对抗性攻击的鲁棒性。

2. Related Work

图神经网络。近年来，图神经网络（GNN）[1,2,3]已成为分析图结构数据的一种有前途的方法。它们遵循迭代邻域聚合（或消息传递）方案来捕获节点邻域内的结构信息。设 $\mathcal{G}=\{\mathcal{V},\mathcal{E}\}$ 表示无向图，以 $X\in\mathbb{R}^{|\mathcal{V}|\times N}$ 为特征矩阵，其中 $\boldsymbol{x}_n=\boldsymbol{X}[n,:]^T$ 为节点 $v_n\in\mathcal{V}$ 的 N 维属性向量。考虑 K 层 GNN f(·)，第 k 层的传播表示为：
在这里插入图片描述

其中 $\boldsymbol{h}_n^{(k)}$ 是顶点 $v_{n}$ 在第 k 层的嵌入，其中 $\boldsymbol{h}_n^{(0)}=\boldsymbol{x}_n$ ， $\mathcal{N}(n)$ 是与 $v_{n}$ 相邻的顶点集合，AGGREGATION(k)(·) 和 COMBINE( k)(·) 是 GNN 层的组成函数。在 K 层传播之后，G 的输出嵌入通过 READOUT 函数汇总在层嵌入上。然后采用多层感知器（MLP）进行图级下游任务（分类或回归）：

在这里插入图片描述
人们已经提出了各种 GNN [1,2,3]，在图任务中实现了最先进的性能。

图数据增强。图结构数据的增强仍然处于探索之中，沿着这些方向进行了一些工作，但需要高昂的额外计算成本[40]。传统的自训练方法[40, 13]利用训练好的模型来注释未标记的数据； [41]建议在对抗性学习设置中训练生成器分类器网络以生成假节点； [42, 43] 对图结构上的节点特征生成对抗性扰动。

预训练 GNN。尽管（自监督）预训练是卷积神经网络 (CNN) 的常见且有效的方案 [16,17,18]，但很少有人对 GNN 进行探索。一个例外 [9] 仅限于研究迁移学习环境中的预训练策略，我们认为，由于图结构数据来源的不同领域，预训练的 GNN 不容易迁移。在迁移过程中，预训练和下游任务都需要大量的领域知识，否则可能会导致负迁移[9, 44]。

对比学习。对比学习的主要思想是在适当的变换下使表征彼此一致，这引起了最近人们对视觉表征学习的兴趣激增[45,25,26,27,18]。另一方面，对于图数据，试图重建顶点邻接信息的传统方法[22, 23]可以被视为一种“局部对比”，而过分强调邻近信息而牺牲了结构信息 [24]。在[46, 47]的推动下，[24,21,48]提出在局部和全局表示之间进行对比学习，以更好地捕获结构信息。然而，图对比学习尚未像[27, 18]那样从强制扰动不变性的角度进行探索。

3 .Methodology

3.1 Data Augmentation for Graphs

数据增强旨在通过应用一定的变换来创建新颖且现实合理的数据，而不影响语义标签。除了一些计算成本昂贵的图之外，它仍然未被充分探索（参见第 2 节）。我们专注于图级增强。给定 M 个图数据集中的图 $\mathcal{G} \in \{\mathcal{G}_m : m \in M\}$ ，我们制定增广图 $\hat{\mathcal{G}}$ 满足： $\hat{\mathcal{G}}\sim q(\hat{\mathcal{G}}|\mathcal{G})$ ，其中 $q(\cdot|\mathcal{G})$ 是基于以下条件的增广分布：原始图，是预先定义的，代表数据分布的人类先验。例如，对于图像分类，旋转和裁剪的应用对人们将从旋转图像或其局部补丁中获取相同的基于分类的语义知识进行编码[49, 50]。

当谈到图表时，可以遵循同样的精神。然而，第 2 节中所述的一个挑战。 1 是图数据集是从不同领域抽象出来的，因此可能不存在像图像那样普遍适用的数据增强。换句话说，对于不同类别的图数据集，某些数据增强可能比其他数据更需要。我们主要关注三类：生化分子（例如化合物、蛋白质）[9]、社交网络[1]和图像超像素图[12]。接下来，我们提出了图结构数据的四种通用数据增强，并讨论了它们引入的直观先验。

在这里插入图片描述

节点掉落。给定图 G，节点丢弃将随机丢弃某些部分的顶点及其连接。它强制执行的底层先验是，丢失部分顶点不会影响 G 的语义。每个节点的丢弃概率遵循默认的 i.i.d。均匀分布（或任何其他分布）。

边缘扰动。它会通过随机添加或删除一定比例的边来扰乱G中的连通性。这意味着G的语义对边缘连接模式方差具有一定的鲁棒性。我们还遵循 i.i.d. 均匀分布以添加/删除每条边。

属性屏蔽。属性屏蔽提示模型使用其上下文信息（即剩余属性）恢复屏蔽的顶点属性。基本假设是丢失部分顶点属性不会对模型预测产生太大影响。

子图。该算法使用随机游走从 G 中采样子图（该算法在附录 A 中进行了总结）。它假设 G 的语义可以在其（部分）局部结构中得到很好的保留。默认增强（丢弃、扰动、掩蔽和子图）比率设置为 0.2。

在这里插入图片描述

图 1：图对比学习的框架。两个图增强 $q_i(\cdot|\mathcal{G})\text{ and }q_j(\cdot|\mathcal{G})$ 从增强池 T 中采样并应用于输入图 G。训练基于共享 GNN 的编码器 f(·) 和投影头 g(·) 通过对比损失最大化表示 zi 和 zj 之间的一致性。

3.2 Graph Contrastive Learning

受近期视觉表示学习中对比学习发展的推动（参见第 2 节），我们提出了一种用于（自监督）GNN 预训练的图对比学习框架（GraphCL）。在图对比学习中，预训练是通过潜在空间中的对比损失最大化同一图的两个增强视图之间的一致性来进行的，如图 1 所示。该框架由以下四个主要部分组成：

(1)图数据增强。给定的图 G 经过图数据增强以获得两个相关视图 $\hat{\mathcal{G}}_i,\hat{\mathcal{G}}_j$ ，作为正对，其中分别为 $\hat{\mathcal{G}}_{i}\sim q_{i}(\cdot|\mathcal{G}),\hat{\mathcal{G}}_{j}\sim q_{j}(\cdot|\mathcal{G})$ 。对于图数据集的不同领域，如何战略性地选择数据增强很重要（第 4 节）。

(2)基于GNN的编码器。基于 GNN 的编码器 f(·)（在（2）中定义）提取增强图 $\hat{\mathcal{G}}_i,\hat{\mathcal{G}}_j$ 的图级表示向量 $\boldsymbol{h}_i,\boldsymbol{h}_j$ 。图对比学习不对 GNN 架构施加任何约束。

(3)投影头。称为投影头的非线性变换 g(·) 将增强表示映射到另一个潜在空间，在该潜在空间中计算对比损失，如[18]中所提倡的。在图对比学习中，应用两层感知器（MLP）来获取 $\boldsymbol{z}_i,\boldsymbol{z}_j$ 。

(4)对比损失函数。定义对比损失函数 L(·) 来强制最大化正对 $\boldsymbol{z}_i,\boldsymbol{z}_j$ 与负对之间的一致性。在这里，我们利用归一化温度尺度交叉熵损失（NT-Xent）[51,25,52]。

在 GNN 预训练期间，随机采样 N 个图的小批量，并通过对比学习进行处理，产生 2N 个增强图和相应的对比损失进行优化，其中我们将重新注释 $z_i,z_j\text{ as }z_{n,i},z_{n,j}$ 小批量中的第 n 个图。负对没有显式采样，而是从[53, 18]中相同小批量内的其他 N-1 个增强图生成。将余弦相似度函数表示为 $\sin(\boldsymbol{z}_{n,i},\boldsymbol{z}_{n,j})=\boldsymbol{z}_{n,i}^{\mathsf{T}}\boldsymbol{z}_{n,j}/\|\boldsymbol{z}_{n,i}\|\|\boldsymbol{z}_{n,j}\|$ ，第 n 个图的 NT-Xent 定义为：

其中 τ 表示温度参数。最终损失是针对小批量中的所有正对进行计算的。附录 A 总结了所提出的图对比学习。

讨论。我们首先证明 GraphCL 可以被视为两种增强图的潜在表示之间互信息最大化的一种方式。完整的推导在附录 F 中，损失形式重写如下：
在这里插入图片描述

上述损失本质上最大化了 $\boldsymbol{h}_i= f_1(\hat{\mathcal{G}}_i)$ ， $\boldsymbol{h}_j = f_2(\hat{\mathcal{G}}_j)$ 之间互信息的下界， $(f_1,\hat{\mathcal{G}}_i),(f_2,\hat{\mathcal{G}}_j)$ 的组合决定了我们想要的图视图。此外，我们在 GraphCL 和最近提出的对比学习方法之间建立了联系，通过重新解释（4），我们证明 GraphCL 可以重写为一个通用框架，统一图结构数据上的一系列对比学习方法。在我们的实现中，我们选择 f1 = f2 并通过数据增强生成 $\hat{\mathcal{G}}_i,\hat{\mathcal{G}}_j$ ，而组合的各种选择导致 (4) 实例化为其他特定的对比学习算法，包括 [54, 55, 56, 21, 57, 58 ，59]也见附录F。

4 The Role of Data Augmentation in Graph Contrastive Learning

在本节中，我们将评估并合理化 GraphCL 框架中图结构化数据的数据增强的作用。如图 2 所示，各种增强类型对应用于三类图数据集（表 2，我们将关于超像素图的讨论留在附录 C 中）。实验是在半监督环境中进行的，遵循预训练和微调方法[18]。详细设置见附录 B。

在这里插入图片描述

4.1 Data Augmentations are Crucial. Composing Augmentations Benefits

我们首先检查应用（不同的）数据增强是否以及何时应用通常有助于图形对比学习。我们使用与从头开始训练（无预训练）相比的准确率增益来总结图 2 中的结果。我们列出了以下观察结果。

观察。 1. 数据增强在图对比学习中至关重要。从图 2 右上角的准确性损失来看，在没有任何数据增强的情况下，图对比学习没有帮助，而且与从头开始的训练相比，效果往往更差。相比之下，构建原始图及其适当的增强可以使下游性能受益。从图 2 中的顶行或最右列来看，具有单一最佳增强的图对比学习在没有详尽的超参数调整的情况下取得了相当大的改进：NCI1 为 1.62%，PROTEINS 为 3.15%，COLLAB 为 6.27%，而 1.66 RDT-B 的%。

观察结果符合我们的直觉。在没有增强的情况下，graphCL 只是将两个原始样本作为负对进行比较（正对损失变为零），导致所有图形表示均匀地相互远离，这是不直观的。重要的是，当应用适当的增强时，数据分布的相应先验就会被灌输，通过最大化图与其增强之间的一致性，强制模型学习对所需扰动不变的表示。

观察。 2. 组合不同的增强会带来更多好处。组成图的增强对而不是图及其增强进一步提高了性能：NCI1 的最大准确度增益为 2.10%，PROTEINS 为 3.15%，COLLAB 为 7.11%，RDT-B 为 1.85%。有趣的是，与不同类型的增强对（非对角线）相比，应用相同类型的增强对（参见图 2 的对角线）通常不会带来最佳性能（节点丢弃除外）。在视觉表征学习中也进行了类似的观察[18]。正如[18]中推测的那样，组合不同的增强可以避免学习到的特征过度拟合低级“快捷方式”，从而使特征更具概括性。

在这里，我们做出类似的猜想，对比以不同类型增强的同源图对对于图表示学习来说是更困难但更有用的任务。因此，我们绘制了由各种增强（子图除外）以及 NCI1 和蛋白质的属性掩蔽或边缘扰动组成的对比损失曲线。图 3 显示，当优化过程保持相同时，对于不同类型的增强对，对比损失总是比相同类型的增强对下降得慢。这个结果表明，组合不同类型的增强对确实对应于“更难”的对比预测任务。我们将在第 4.3 节中探讨如何在某些情况下量化“更难”的任务以及它是否总是有帮助。

在这里插入图片描述
图 3：不同增强对的对比损失曲线。在左边的两幅图中，属性掩蔽与其他增强进行了对比，而右边的属性掩蔽则与边缘扰动进行了对比，其中对比相同的增强总是会导致最快的损失下降。

4.2 The Types, the Extent, and the Patterns of Effective Graph Augmentations

然后我们注意到，增强类型的（最）有益组合可以是特定于数据集的，这符合我们的直觉，因为图结构数据具有高度异构性（参见第 1 节）。我们总结了我们的观察结果并得出以下见解。我们进一步分析给定类型的图增强的范围和/或模式的影响。

观察。 3. 边缘扰动有利于社交网络，但会损害一些生化分子。边缘扰动作为配对增强之一，提高了社交网络数据 COLLAB 和 ROT-B 以及生物分子数据蛋白质的性能，但损害了其他生物分子数据 NCI1。我们假设，与社交网络的情况相比，一些生物分子数据的“语义”对个体边缘更加敏感。具体来说，NCI1 中的单边变化对应于共价键的移除或添加，这可以极大地改变化合物的身份甚至有效性，更不用说其下游语义的属性了。相比之下，社交网络的语义更能容忍个体边缘扰动 [60, 61]。因此，对于化合物，边缘扰动展示了一个先验，该先验在概念上与领域知识不兼容，并且在经验上对下游性能没有帮助。

我们进一步研究边缘扰动的程度或强度是否会影响上述结论。我们评估了代表性示例 NCI1 和 COLLAB 的下游性能。我们在 GraphCL 框架中使用原始图（“相同”）和各种比率的边缘扰动的组合。图 4A 显示，无论增强强度如何，边缘扰动都会使 NCI1 性能恶化，这证实了我们之前的结论对边缘扰动的程度不敏感。图 4B 表明，随着增强强度的增加，边缘扰动可以进一步提高 COLLAB 性能。

观察。 4. 应用属性屏蔽可以在更密集的图中实现更好的性能。对于社交网络数据集，组合相同的图和属性屏蔽可以使 COLLAB（具有更高的平均度）提高 5.12%，而 RDT-B 仅提高 0.17%。对于密度更大的蛋白质与 NCI1 的情况也进行了类似的观察。为了评估增强强度对此观察结果的影响，我们通过构建相同的图及其不同程度掩盖的属性，在 RDT-B 和 COLLAB 上进行了类似的实验。图 4C 和 D 表明，对非常稀疏的 RDT-B 进行较少的屏蔽并无帮助，尽管对非常密集的 COLLAB 进行更多屏蔽会有所帮助。

在这里插入图片描述

图 4：性能与增强强度。左两张图以不同的比率实现了边缘扰动。右两图应用了不同掩码比例的属性掩码。

我们进一步假设屏蔽模式也很重要，并且根据消息传递机制 [62]，屏蔽更多具有高度数的中心节点有利于更密集的图，因为 GNN 无法重建孤立节点的缺失信息。为了检验这一假设，我们进行了一项实验，以在更密集的图 PROTEINS 和 COLLAB 上以更高的概率屏蔽具有更多连接的节点。具体来说，我们采用掩蔽分布degα n而不是均匀分布，其中degn是顶点vn的度数，α是控制因子。正 α 表示高度节点的掩蔽更多。图 5C 和 D 显示，对于非常密集的 COLLAB，如果屏蔽具有更多连接的节点，则性能有明显的上升趋势。

观察。 5. 节点删除和子图在数据集中通常是有益的。节点删除和子图，尤其是后者，在我们研究的数据集中似乎通常是有益的。对于节点丢弃，强调了丢失某些顶点（例如化合物中的一些氢原子或社交网络的边缘用户）不会改变语义信息的先验，直观地符合我们的认知。对于子图，之前的工作[20, 21]表明，强制局部（我们提取的子图）和全局信息一致性有助于表示学习，这解释了观察结果。即使对于 NCI1 中的化合物，子图也可以代表对下游语义很重要的结构和功能“基序”。

我们同样通过采用更改属性屏蔽模式中提到的非均匀分布来检查节点丢弃模式的影响。图 5B 显示，对于密集的社交网络 COLLAB 图，观察到更多的 GraphCL 改进，同时在考虑的范围内丢弃更多的中心节点。图 5A 显示，对于不太稠密的蛋白质图，改变节点丢弃分布不均匀并不一定有帮助。

在这里插入图片描述

图 5：性能与增强模式。节点删除和属性屏蔽是通过各种控制因素执行的（从负到正：删除/屏蔽更多低度顶点到高度顶点）。

4.3 Unlike “Harder” Ones, Overly Simple Contrastive Tasks Do Not Help.

正如 Obs 中所讨论的。 2、“更难”的对比学习可能会受益更多，其中“更难”的任务是通过组合不同类型的增强来实现的。在本节中，我们进一步探讨与参数化增强强度/模式相关的可量化难度，并评估难度对性能改进的影响。

直观上，较大的丢弃/掩蔽比或控制因子 α 会导致对比任务更加困难，这确实会在考虑的范围内带来更好的 COLLAB 性能（图 4 和 5）。非常小的比率或负α，对应于过于简单的任务，我们还设计了难度级别不断增加的子图变体并得出类似的结论。更多详细信息参见附录 D。

概括。总的来说，我们将第 5 节的增强池确定为：生化分子的节点丢弃和子图；一切都是为了密集的社交网络；除了稀疏社交网络的属性屏蔽之外的所有内容。优势或模式是默认的，尽管改变它们可能会有所帮助。

5. Comparison with the State-of-the-art Methods

在本节中，我们将我们提出的（自监督）预训练框架 GraphCL 与半监督、无监督 [21] 和迁移学习 [9] 设置中最先进的方法 (SOTA) 进行比较关于图分类（节点分类实验请参见附录G）。特定设置的数据集统计数据和训练详细信息参见附录 E。

半监督学习。我们首先在基准 TUDataset [64] 上的图分类 [63, 3] 的半监督学习设置中评估我们提出的框架。由于之前没有探索过半监督学习中图级任务的预训练和微调，因此我们采用两种传统的网络嵌入方法作为预训练任务进行比较：邻接信息重建（我们参考GAE[22]实现）以及本地和全局表示一致性执行（请参阅 Infomax [21] 实现）。此外，还报告了从头开始训练和增强训练（无对比）的表现。我们采用[63]中默认设置的图卷积网络（GCN）作为基于 GNN 的编码器，它在完全监督的设置中实现了可比的 SOTA 性能。表 3 显示 GraphCL 优于传统的预训练方案。

表 3：带有预训练和微调的半监督学习。红色数字表示最佳性能以及与最佳性能的标准差（可比较的）重叠的数字。 1%或10%为标签率；基线和八月分别代表没有和有增强的从头开始的训练。

在这里插入图片描述
无监督表示学习。此外，GraphCL 在下面的无监督表示学习中进行了评估 [65, 21]，其中无监督方法生成图嵌入，并将其输入下游 SVM 分类器 [21]。除了图基核（GL）、Weisfeiler-Lehman 子树核（WL）和深度图核（DGK）等 SOTA 图核方法之外，我们还与四种无监督图级表示学习方法进行了比较，如 node2vec [66]、sub2vec [67]、graph2vec [65] 和 InfoGraph [21]。我们采用[21]中默认设置的图同构网络（GIN）作为基于 GNN 的编码器，这在表示学习中是 SOTA。表 4 显示 GraphCL 在大多数情况下表现优于图大小较小的数据集（例如 MUTAG 和 IMDB-B 由平均节点数小于 20 的图组成）。

表 4：比较从图内核学习的图表示、SOTA 表示学习方法以及使用 GraphCL 预训练的 GIN 的分类准确性。比较的数字来自相同实验设置下的相应论文。

在这里插入图片描述
迁移学习。最后，按照[9]对化学中的分子特性预测和生物学中的蛋白质功能预测进行迁移学习实验，在不同的数据集中对模型进行预训练和微调，以评估预训练方案的可迁移性。我们采用[9]中默认设置的GIN作为基于GNN的编码器，这在迁移学习中是SOTA。实验进行 10 次，ROC-AUC 分数的平均值和标准差 (%) 报告为 [9]。尽管没有普遍有益的预训练方案，特别是对于迁移学习中的分布外场景（第 1 节），但表 5 显示，与之前的最佳方案相比，GraphCL 在 9 个数据集中的 5 个上仍然实现了 SOTA 性能。

表 5：迁移学习与不同手动设计的预训练方案的比较，其中比较的数字来自[9]。

在这里插入图片描述

对抗鲁棒性。除了普遍性之外，我们声称 GNN 还可以使用 GraphCL 获得鲁棒性。实验是在合成数据上进行的，以对图中的组件数量进行分类，面临 RandSampling、GradArgmax 和 RL-S2V 攻击，遵循[60]中的默认设置。与[60]一样，采用Structure2vec[68]作为基于GNN的编码器。表 6 显示，在三种逃避攻击下，与从头开始训练相比，GraphCL 提高了 GNN 的鲁棒性。

表 6：不同深度的 GNN 在三种对抗攻击下的对抗性能（遵循[60]中的协议）。红色数字表示最佳性能。

在这里插入图片描述

6 .Conclusion

在本文中，我们进行显式研究，探索 GNN 预训练的对比学习，面对图结构数据的独特挑战。首先，提出了几种图数据增强，并在引入数据分布的某些人类先验的基础上讨论了每种增强。除了新的增强功能之外，我们还提出了一种用于 GNN 预训练的新型图对比学习框架 (GraphCL)，以促进不变表示学习和严格的理论分析。我们系统地评估和分析了我们提出的框架中数据增强的影响，揭示了原理并指导了增强的选择。实验结果验证了我们提出的框架在通用性和鲁棒性方面的最先进性能。