通过自适应稀疏多视图典型相关分析识别基因组、蛋白质组和成像生物标志物之间的关联

Identifying associations among genomic, proteomic and imaging biomarkers via adaptive sparse multi-view canonical correlation analysis

源代码:GitHub - dulei323/AdaSMCCA: Adaptive Sparse Multi-view Canonical Correlation Analysis.

Abstract:为了揭示大脑疾病的遗传基础,大脑成像基因组学通常联合分析遗传变异和成像测量。同时,其他生物标志物如蛋白质组表达也可以携带有价值的互补信息。因此,研究遗传变异、蛋白质组表达和神经影像学测量之间的潜在关系是必要的,但也是具有挑战性的,这有可能为脑疾病的发病机制提供新的见解。给定多种类型的生物标志物,使用稀疏多视图典型相关分析(SMCCA)及其变体来识别多路关联是简单的。然而,由于由多个SCCA目标的朴素融合引起的梯度支配问题,SMCCA是次优的。在本文中,我们提出了两个自适应SMCCA(AdaSMCCA)的方法,即鲁棒性感知的AdaSMCCA和不确定性感知的AdaSMCCA,分析遗传,蛋白质组学和神经影像学生物标志物之间的复杂关联。我们还对遗传数据施加了数据驱动的特征分组惩罚,旨在揭示相邻遗传变异的联合遗传。给出了一种保证收敛的有效优化算法。使用两个最先进的SMCCA作为基准,我们评估了鲁棒性感知的AdaSMCCA和不确定性感知的AdaSMCCA的合成数据和真实的神经成像,蛋白质组学和遗传数据。这两种方法获得了更高的协会和清洁的典型权重配置文件比比较方法,表明他们有前途的关联识别和特征选择的能力。此外,随后的分析表明,所鉴定的生物标志物与阿尔茨海默病有关,这证明了我们的方法在鉴定多种异质生物标志物之间的多途径双多变量关联方面的能力。

1.Introduction

第一段首先介绍AD阿尔兹海默。略

第二段介绍SCCA的优缺点在过去的十年中,出现了许多脑成像基因组研究,以调查两种类型的生物标志物之间的关联。最近的一项系统综述(Shen和Thompson,2020)显示,其中大多数旨在鉴定单核苷酸多态性(SNP)与脑成像定量性状(QT)之间的关联(Du et al.,2018; 2020 a; 2020 b; 2020 c; Bi等人,2020年a; 2020年b)。从技术上讲,回归方法和稀疏典型相关分析(SCCA)方法被广泛使用。例如,仅基于回归,Wang等人(2012)提出了多任务回归和分类,以结合联合收割机SNP和成像QT来预测记忆退化和诊断状态。Yan等人(2017)单独使用SCCA研究了蛋白质组学分析物与脑成像QT之间的关联。此外,还提出了回归和SCCA的整合以鉴定SNP、成像QT和诊断结果之间的关联(Zille等人,2018年)。据我们所知,回归方法通常不被设计为直接鉴定SNP-QT相关性(Wang等人,2012),而经典SCCA只能处理两种不同类型的生物标志物(Lin等人,2014; Fang等人,2016年; Yan等人,2017; Du等人,2018年)。他们的合并仍然面临着与SCCA相同的问题。因此,开发新的方法来有效地和实际地鉴定三种以上不同类型的生物标志物之间的多途径关联是必要的和重要的。

第三段引出论文所提出来的AdaSMCCA为了确定多种不同类型的生物标志物之间的关联,结果组合策略可能是一种替代方案。它首先独立分析每种生物标志物,然后将结果组合在一起得出Meta结论。显然,不同类型的生物标志物之间的相互作用被忽视了。SMCCA(维滕和Tibshirani,2009)是另一种替代方案,但是直接应用它来识别多路关联通常遭受梯度支配问题(Kendall等人,2018年),这是不公平的目标组合(胡等人,2017年)。这是成像基因组学中的常见问题,因为通常在多种类型的生物标志物之间表现出显著不同的相关性水平。例如,通过SCCA获得的SNP和结构成像QT(如灰质损失)之间的值范围为[-1,1](或绝对值为[0,1])的相关系数约为[0.2,0.3](Du等人,2021),而蛋白质组学标记物和结构成像QT(如皮质厚度)之间的差异要高得多,训练值约为0.7,测试值约为0.38(Yan等人,2017年)。这种显著的差异导致梯度优势,从而导致有偏优化。更严重的是,随着生物标志物种类的增加,梯度优势将变得更糟。这进一步恶化SMCCA的性能,由于其幼稚的融合策略。Hu et al.(2017)提出了一种自适应SMCCA,在本文中称为AdaSMCCA,它为每个SCCA模型分配自适应权重。不幸的是,该方法仍然受到梯度支配的影响。而且,由于它将协方差矩阵视为恒等矩阵,因此AdaSMCCA缺乏一致性和收敛性的理论保证,这可能是不可靠的(Chen等人,2013年)。因此,为了更好地识别多路双多元关联,开发更具适应性的方法,具有坚实的理论性质来处理梯度支配问题,将是非常有价值和意义的。

第四段介绍文章结构以及提出模型的优点(其实就是拿之前的工作堆叠):在这篇文章中,我们重新SMCCA及其在成像基因组学的多途径关联识别的局限性。为了克服梯度优势,我们首先提出了一种鲁棒性感知的AdaSMCCA(rAdaSMCCA)方法,该方法自适应地平衡多个成对SCCA模型。此外,为了确保选择有意义的生物标志物,我们采用了融合的成对组Lasso(FGL)(Du et al.,2020 c)和Lasso来调节SNP,以及Lasso来调节蛋白质组标记和成像QT。我们进一步发现,rAdaSMCCA仍然遭受极端SCCA模型引起的梯度支配问题。因此,我们提出了一种新的不确定性感知的AdaSMCCA(unAdaSMCCA),解决了梯度优势问题,并具有理想的理论性质。这项研究的贡献有四个方面。首先,我们提出了两种新的AdaSMCCA方法,即rAdaSMCCA和unAdaSMCCA,它们可以识别多个(≥ 3个)类型的生物标志物之间的多路双多变量关联,而无需盲目融合它们。我们首先介绍了rAdaSMCCA,因为它是AdaSMCCA的增强,然后我们介绍了unAdaSMCCA,它在建模方面优于rAdaSMCCA和AdaSMCCA。其次,这两种方法都克服了梯度支配问题,而unAdaSMCCA是克服这个问题的最佳方法。在这项研究中,解决梯度优势,使一个更好的识别SNP,蛋白质组分析物和成像测量之间的关系,这可能会产生有趣的发现AD。第三,SNP的特征分组惩罚自动学习嵌入在相邻SNP中的分组结构。这种数据驱动的正则化可以提取共同影响蛋白质组QT和成像QT的SNP。第四,为了有效地解决两个模型,我们推导了一个替代迭代算法,其收敛性证明。

第五段介绍实验:在实验中,我们将rAdaSMCCA和unAdaSMCCA与两种最先进的方法进行了比较,包括SMCCA(维滕和Tibshirani,2009)和自适应SMCCA(Hu等人,2017),在四个合成数据集和一个真实的数据集上,包括来自阿尔茨海默病神经成像倡议(ADNI)数据库的244名受试者的SNP、蛋白质组学分析物标记和成像QT。在合成和真实的数据集上的结果表明,rAdaSMCCA和unAdaSMCCA识别出更高的典型相关系数和更好的典型权重模式,表明增强的特征选择能力。特别是,unAdaSMCCA由于其精心设计的损失平衡策略而表现最好。总之,所有这些结果表明,rAdaSMCCA和unAdaSMCCA在识别SNP、蛋白质组分析物和成像QT之间的多途径双多变量关联方面都具有非常有前途的能力,其中unAdaSMCCA是最好的。因此,我们提出的rAdaSMCCA和unAdaSMCCA是用于识别脑成像基因组学中多组学数据之间的多方式关联的有前途的方法。

2.Method

主要是介绍各种模型的优缺点,略

2.1 SMCCA

2.2 AdaSMCCA

2.3 rAdaSMCCA

2.4 unAdaSMCCA

2.5 优化方法

2.6.收敛性分析

3. 实验

对比了SMCCA、AdaSMCCA、rAdaMCCA、unAdaSMCCA四种模型。

参数设置:

        除了SMCCA之外,我们的方法有四个参数,AdaSMCCA有三个参数,在进行实验之前应该进行微调。我们采用嵌套的5折交叉验证方法,其中内部循环负责从候选区间中查找它们。我们使用了几个启发式规则,以减少时间的努力。特别地,β被限制在(0,1)中,并且β < 0.5。如果我们更喜欢个体稀疏性,则可以使用β<0.5,而β > 0.5是选择组稀疏是可取的。λ1、λ2和λ3控制SNP、蛋白质组生物标志物和成像QT的稀疏水平。此外,由于这些罚函数是单调递增的,如果生物标志物的数量很大,则应使用相对较大的参数。基于此,我们首先从10的i次方(i = −3,−2,−1,0,1,2,3)中搜索三个λ。一旦我们获得了赢家参数,我们就以更小的间隔[0 .1、0 .2、···、···、1]。所有方法都运行在相同的软件平台上,并使用相同的数据分区,以使比较公平。停止条件设为max k k ∈{ 1,2,3 } max| w(t+1)k −w(t)k| ≤,公差误差= 10的-5次方。在实验中,rAdaSMCCA和unAdaSMCCA都在大约20到30次迭代内收敛,我们还将最大迭代次数设置为100,以确保效率和性能。

(我按照作者的参数设置进行实验,无法达到作者的ccc精度)

3.1 在虚拟数据集上实验

有四组data,只放了一张上来

3.2 使用ADNI数据集

(复现失败,如果有复现成功的小伙伴可以交流一下)

受试者的基本信息:

        同一人群的血浆样本由Rules Based Medicine,Inc.(RBM)蛋白质组学经过质量控制(QC),我们获得了146个蛋白质组标记。来自ADNI网站的基因分型数据使用Human 610-Quad或OmniExpress Array平台(Illumina,Inc.,San Diego,CA,USA)。经过标准的QC程序和MaCH软件的插补,我们获得了每个受试者的SNP数据。本研究基于ANNOVAR注释方法,共纳入AD危险基因APOE、TOMM 40和APOC 1(边界为170 kb)周围的827个SNP。鉴于这些SNP,蛋白质组学标记和脑成像QT,我们的目标是研究它们的多途径双多变量关联,并确定相关的生物标志物,从而能够进行更有针对性和深入的随访分析。

3.2.1 Multi-way bi-multivariate associations

        在图2中,我们给出了平均训练和测试CCC,其显示了多路双多变量关联识别能力。为了便于分析,我们将SNP与蛋白质组标记之间的关联表示为SNP-Protein,类似地,将SNP与成像QT之间的关联表示为SNP-QT,并且将蛋白质组标记与成像QT之间的关联表示为Protein-QT。很明显,总体而言,unAdaSMCCA获得了最高的核心共同承诺。rAdaSMCCA获得了与unAdaSMCCA相似的CCC,并且它们都优于SMCCA和AdaSMCCA。此外,对于训练结果,unAdaSMCCA在SNP-Protein和SNPQT上产生了最高的CCC,而rAdaSMCCA在Protein-QT上获胜。在检测CCC中也可以得出类似的结论。更有趣的是,在SNP-QT和Protein-QT的训练和测试结果中,SMCCA与AdaSMCCA方法没有明显差异。这意味着SMCCA的两个子目标,即SNP-QT和蛋白质-QT,具有相对低的CCC,主导了SMCCA的整个目标,这导致SNP-Protein的显著差异。我们还可以观察到AdaSMCCA在一定程度上缓解了梯度优势,但不是全部。相比之下,rAdaSMCCA提高了AdaSMCCA的性能,但由于其中途权衡损失的策略,它仍然遭受梯度优势。令人惊讶的是,unAdaSMCCA很好地解决了梯度支配问题。unAdaSMCCA不仅在SNP-QT和蛋白质-QT上产生了最好的或相当的CCC,而且在SNP-蛋白质的相关性上获得了最高的分数,如果没有精心设计的重新加权策略,可能会被幼稚SMCCA模型错过。因此,通过迭代地重新加权每个子目标,可以获得显著的改善。总之,unAdaSMCCA由于考虑了每个子目标的不确定性以及详细的正则化,因此表现最好。

(我跑这里一直过拟合,按照作者的参数设置方法选择参数,但是结果都不太理想,甚至出现负相关)

3.2.2 识别相关的生物标志物

SNP:

蛋白质:(我每次跑的结果都只能和他有两三种重复,最多一次是五种)

QT:

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值