文章目录
Abstract
随着深度学习的最新进展,分子表示学习——自动发现分子结构特征表示的方法,引起了化学家和机器学习研究人员的广泛关注。深度学习可以促进各种下游应用,包括生物性质预测、化学反应预测等。尽管当前的SMILES字符串或分子图分子表示学习算法(分别通过序列建模和图神经网络)已经取得了令人鼓舞的结果,但目前尚无工作将两种方法的能力整合起来,以更好地保留分子特征(例如,原子团、化学键)以进行进一步的改进。在本文中,我们提出了GraSeq,这是一个用于分子性质预测的联合图和序列表示学习模型。具体来说,GraSeq将图神经网络和循环神经网络相结合,分别对两种类型的分子输入进行建模。此外,它通过无监督重构和各种下游任务的多任务损失进行训练,使用有限大小的标记数据集。在各种化学性质预测测试中,我们证明了我们的GraSeq模型比最先进的方法表现更好
Introduction
要点如下
- 药物发现中对临床药物测试需要花费大量人力、物力和时间成本,而最后这些药物却不一定能够上市。最近深度学习的出现通过基于神经网络的分子表征学习为数据驱动的虚拟筛选方法提供了新的可能性
- 分子性质性质预测的任务是建立一个模型来学习与分子结构相关的目标,而不一定是该结构的特定构象
- 基于神经网络的分子表示方法可分为两类
- SMILES:是一种描述化学物质结构的序列符号,它对每种结构都是唯一的,通常用于表示分子。可以将其视为序列数据,采用自然语言技术(例如bert)处理。但是,仅仅将具有复杂内部连通性的分子作为简单的序列数据,缺乏足够的解释和表达能力
- molecular graph:分子图可以捕捉到不同原子的空间连通性,特别是对于星型结构和环状结构(如烷基和苯环)。化学分子键保存完好,这可能对分子性质有影响。例如,二氧化碳在碳和氧之间有二价键。而,简单地使用分子图来建模分子并不能全面地学习分子表征。利用分子图很难捕捉到某些特定分子性质的信息,例如原子的手性
- 两个问题
- 能否整合分子图谱和SMILES序列的能力,进一步增强分子表征表达能力,提高不同下游任务的性能?此外,标记分子性质的有限尺寸是制约预测性能的另一个问题
- 如何通过最大化从分子结构中提取的信息来获得更高的预测结果
Realted Work
分子表征学习已经开始研究很长时间了,早期主要是手工特征,例如ECFP等。现如今
- Molecular Graph Representation Learning:随着深度学习算法的快速发展,图神经网络在学习分子表征方面受到了广泛的关注,因为它可以以端到端的方式学习适当的分子表征,这些分子表征与图同构无关[6,9,18]
- Molecular Sequence Representation Learning:一把就是视为序列,然后使用BERT研究
GraSeq FRAMEWORK
Problem Definition
重点: 它这里是通过一个预定于的映射函数将图表示为序列的
如下图所示
- 首先,利用图神经网络对分子图进行编码
- 其次,将图层得到的嵌入信息传递给序列编码器,学习序列所表示分子的上下文信息
- 第三,利用融合层对图层和序列层的输出进行融合
- 最后,将多任务结合分子重构作为自监督任务进行训练
Component 1: Graph Encoder
聚合信息
Component 2: Sequence Encoder
序列 s ∈ S s \in S s∈S中的每一项都与分子图中的一个特定节点相关联,然后,我们将从图编码器得到的嵌入映射到序列中的原子上。它输入的仍然是SMILES,只不过让SMILES和分子图中的原子对应,然后将分子图的到嵌入信息映射进去
对于序列处理用的是Bi-LSTM
Component 3: Fusion Layer
为了获得每个分子的最终输出 h M h_{M} hM,我们将序列层的输出 h s h_{s} hs与图层的隐藏状态 h v h_{v} hv通过一个维度融合门(融合门)结合起来
- h G h_{G} hG和 h S h_{S} hS是将 h v h_{v} hv和 h s h_{s} hs串联起来的矩阵
最终
Component 4: Reconstruction Layer
模仿Seq2Seq,将分子表示(通过图编码器和序列编码器获得)作为解码器的输入,通过分子重构来增强分子表示学习过程。但是传统Seq2Seq在面对泛化分布时,可能会出现性能不佳,因此,我们引入了神经变分推理(NVI)框架进行序列建模
损失如下(变分下界)
Output Layer
总损失分为:标签损失和重构损失
Experimental Results
与基线方法比较:总的来说,我们发现基于序列的模型比基于图的模型表现得更好。这可能是由于输入表示(序列与图)的描述能力。基于图的模型(GraphSAGE、GCN、GIN、PreGNN)以分子图为输入,基于序列的模型(Mol2Vec、Seq3SeqFP)以序列为输入。我们的实验表明,序列在一般情况下可能更适合学习,但这两种模型都不能像我们的模型那样有效地利用图和序列表示的信息。我们将在第4.7节进一步讨论输入表示的影响
- 表2:我们可以观察到GraSeq模型在不同变体下相对于基线模型在来自MoleculeNet [35]的四个数据集上都有显著的提升。与最佳基线方法相比,我们的模型在BBBP、Tox21和ToxCast数据集上的AUC分数分别提高了+3.53%、+2.19%和+2.23%。唯一的例外是BACE数据集,其中PreGNN表现最佳。PreGNN采用多种预训练策略,以整合本地(节点级)和全局(图级)知识。它通常优于其他基于图的模型。但是,这种性能提升需要昂贵的预训练。另外,由于PreGNN无法像我们的模型那样利用序列信息,因此它在所有其他数据集上的性能都低于我们的模型。
- 表3:我们进一步将GraSeq模型与最先进的基于序列的分子表示学习模型进行了比较,如表3所示。由于它们尚未发布代码,或者他们发布的代码无法运行,我们直接报告了他们在已发表论文中的表现。我们可以观察到,我们的模型在LogP数据集上可以胜过所有基线模型,并且与最先进的方法SMILES-BERT相比,准确率提高了+3.16%
融合学习的有效性分析:
- 在这里,我们通过选择不同的融合策略变体来比较其有效性。AUC结果如表4所示。我们可以观察到,与基于图的模型、基于序列的模型和序列重建模型相比,我们提出的GraSeq模型表现出更好的性能。我们的graseq系列模型的最佳结果比最佳单输入模型分别提高了BACE +5.19%、BBBP +2.85%、Tox21 +1.46%、Toxcast +2.23%、LogP +0.58%和FDA +1.66%。因此,融合基于图的模型和基于序列的模型可以有效地利用两种类型的分子表示,并从中获取重要信息。通过使用GraphSAGE,我们通过采样原子邻居并迭代地聚合它们的信息来更新每个原子。此外,我们使用序列到序列模型来学习分子序列的上下文信息,这有利于从原子基团和电子偏移中学习化学性质。如表4所示,我们提出的方法将分子图和分子序列提取的分子特征进行互补结合
- 比较我们提出的四种方法的变体,GraSeq-F在四个数据集(BACE, BBBP, Toxcast和FDA)上表现最佳。GraSeq和GraSeq- rf分别对Tox21和LogP表现最好。与GraSeq相比,GraSeq- f在BACE、BBBP和Toxcast数据集上的AUC分别提高了+4.83%、+1.79%和+0.80%。这是因为GraSeq-F在序列编码器的顶部添加了一个融合层,如图2©所示,这可以被视为一种增强或残差学习,允许序列编码器补偿图编码器未能学习的内容(例如同位素)。我们知道,变分自编码器的重构损失可以通过最小化变分下界来提高稳定性。然而,由于训练数据有限,很难有效地学习分子重构,导致模型对下游任务学习的关注较少。因此,我们可以观察到,除了Tox21和LogP数据集,与GraSeq-F相比,graseq和GraSeq-RF并没有提高模型的性能。
不同数据集上的性能:分子性质预测的一个挑战是标记数据的大小有限。为了解决这个问题,我们设计了GraSeq来从分子图和分子序列中捕获信息,以最大限度地利用现有数据集。我们还定义了一个多任务损失函数,包含重建损失和下游任务损失。很明显,下游任务丢失对于化学分子预测任务更重要,因为监督丢失比无监督丢失(通过重建)更直接。因此,较低的标签丢失率总是导致较高的预测性能。例如,BACE、BBBP、LogP和FDA数据集中的所有分子都有标签,但ToxCast的标签缺失率为71%,Tox21的标签缺失率为17.05%。如表4所示,Tox21和Toxcast的预测性能低于其他四个数据集,尽管Tox21和ToxCast的大小大于FDA、BACE和BBBP。数据集大小通常在标签缺失率相似时生效。使用没有任何缺失标签的四个数据集的预测性能(即,BACE、BBBP、LogP和FDA)与它们的大小正相关。数据量可能有助于减少重建损失
参数不敏感性分析:图3显示了GraSeq-R在BBBP数据集上的准确度、F1评分和AUC曲线,其中标记丢失和重建丢失之间的比率从0.1变化到10。我们观察到,我们提出的GraSeq-R方法是不敏感的,它总是比任何基线方法表现得更好(AUC总是高于0.9)
Case Study
嵌入的t-SNE可视化:为了定性地验证我们方法的有效性,我们使用t-SNE 将GraSeq-F与图模型和序列模型的嵌入可视化。图4显示了嵌入可视化,其中蓝点表示真阳性标签,绿色十字符号表示假阴性标签,橙子点是真阴性标签,红色十字符号是BBBP数据集中的假阳性标签。请注意,为了更好地进行比较,我们翻转了可视化坐标(这不会改变嵌入空间)
我们可以发现我们的GraSeq-F能够更好地将BBBP数据点与非-BBBP数据点分开
- 首先,GrapSeq-F更不容易将BBBP数据点误分类。在GraSeq-F的可视化中,我们在左侧没有找到任何非-BBBP数据点;而在GNN和Seq2seq的可视化中,几个非-BBBP数据点位于左侧,与BBBP数据点混在一起。左侧的非-BBBP数据点都被GNN和Seq2seq误分类为BBBP,如图4(a)和(b)中的红色叉号所示。这表明了这些模型具有较高的假阳性率
- 其次,我们很容易发现我们的GraSeq-F更有可能正确地识别非-BBBP数据点,因为在大多数非-BBBP数据点所在的右下角,有较少的BBBP点。相反,对于GNN模型,许多BBBP点出现在右下角,与非-BBBP点混合在一起。图4(a)显示,只有很少的非-BBBP点被正确识别(如少量橙色点所示,但有各种红色叉号)。这表明了GNN具有较低的真阴性率但较高的假阳性率。Seq2Seq模型在这个意义上与我们的GraSeq-F表现类似,因为在图4(b)和©中找到了类似数量的橙色点(表示真阴性样本)
- 最后,我们发现我们的GraSeq-F的错误预测(红色和绿色叉号)主要聚集在两个类别的边界上,而GNN和Seq2Seq的错误预测则分布在整个空间中。这也表明我们的GraSeq-F产生了比其他方法更理想的嵌入。通过更好的分离超平面,性能进一步提高。
GraSeq有效性的检验:
我们通过表5中所示的方式来检验我们提出的模型在补充其他模型提供的缺失信息方面的有效性。通过执行集合操作,我们将“G-S”、“S-G”和“G+S”分别表示为仅由GraphSAGE、仅由Seq2seq和由GraphSAGE和Seq2Seq同时进行的错误预测。对于仅由一个模型错误预测的分子,我们的模型表现良好(“G-S”为88.9%,“S-G”为85%)。这表明当一种表示方式(即字符串或图形)中缺少信息时,我们的模型可以利用另一种类型的信息来实现正确的预测。然而,对于同时由图形和基于序列的模型错误预测的分子(“G+S”),我们的模型也表现不佳(准确率为44.4%)。这表明当关键信息既没有被基于图形的模型捕获,也没有被基于序列的模型捕获时,我们的模型也无法恢复缺失的信息
分析模型性能与数据特征之间的关系(重要):
- SMILES字符串越长,对于基于图的模型越不友好:因为它不像LSTM一样,很难利用之前的信息
- 基于图的模型可能会错过化学符号提供的信息:例如
@
表示手性 - 基于序列的模型会对两种类型的SMILES效果不佳
- 如果很短,那么很难学到有用的功能基团
- 如果具有很多分支结构(在SMILES表现就是有很多括号),但这却容易被图学习
我们进一步研究了分子的特征,这些特征更有可能被基于图形模型和基于序列模型错误预测。我们将由GraphSAGE错误预测的分子表示为“G”,将由Seq2seq错误预测的表示为“S”。通过检查这些错误预测的样本,我们发现基于图形的模型和基于序列的模型可能会因为模型的性质而错过某些类型的信息。首先,我们可以看到GraphSAGE在具有长SMILES字符串的分子上表现不佳。“G”中的平均SMILES字符串长度(77.3)长于“S”中的长度(48.8),如图5左侧的直方图所示。然后,我们将77.3作为长SMILES字符串的阈值,并计算GraphSAGE和Seq2Seq的预测准确率。我们发现对于这些分子,GNN的准确率(39.2%)远远低于Seq2seq(82.1%),如图5中间的直方图所示。这些观察结果表明,长SMILES字符串在属性预测任务中对基于图形的模型不友好。基于图形的模型在没有良好可记忆单元的情况下无法捕获长期依赖关系。相比之下,Seq2Seq基于LSTM,即使SMILES字符串很长,也可以利用先前出现的信息。其次,我们发现基于图形的模型可能会错过化学符号提供的信息,这可能与特定属性有关。例如,我们检查了SMILES字符串中含有“@”字符的分子。“@”字符表示原子的手性。我们发现在“G”中含有“@”的分子百分比(72.2%)远高于“S”中的百分比(28.5%),如右侧直方图所示。这表明字符“@”确实对分子的性质产生了相当大的影响,而基于图形的模型未能捕获这一重要信息。第三,我们发现基于序列的模型经常会错过两种类型的分子中的信息。第一种类型的分子具有简单的结构,具有短的SMILES字符串,例如“O=C1C=CNN=C1”。对于这种短字符串,Seq2Seq很难学习到有用的功能基团。另一种类型的分子则是具有许多亚结构的复杂分子,例如“C3=C(N2CCN(CC(COC1=CC(=C(OC)C(=C1)OC)OC)O)CC2)C(=CC=C3)OC”。这个SMILES字符串中有许多括号,表示分子的分支。这种结构很难从字符串中被Seq2seq学习,但相对容易从图形表示中被GraphSAGE学习
Conclusion
在这项工作中,我们专注于利用图和序列来学习分子的有效表示,用于不同的下游分子性质预测任务。我们提出了一个图和序列的融合模型,称为GraSeq,以从SMILES字符串和分子图中捕获重要信息。在6个不同任务上的实验表明,我们提出的具有不同融合选择的GraSeq显著优于当前最先进的方法。我们还指出了当只采用单个分子表示(分子图或SMILES字符串)作为输入时的几个限制。另一方面,GraSeq实现了基于图和基于序列的方法的集成,从而提供了来自方法互补优势的性能改进。我们展示了互补性从两种不同的表征中提取的信息是互补的,而不是相反的,这在案例研究和消融研究中都得到了证明