Time scale of angiosperm evolution based on Ks distribution
摘要:物种演化时间估算是生命演化研究的重要部分。近年来,许多研究发现不同基因和不同物种的进化速率差异显著,因此需要新的方法对进化事件发生时间进行重新估计。为了对被子植物演化时间进行重新估计,基于共享多倍化事件或共享分歧事件应该有共同 Ks 峰值的理念,建立了基于基因组数据的进化速率矫正模型,结果如下:
(1)对获取 Ks 分布三种常见的方式进行了比较分析,明确了通过提取共线性区块上 Ks 值的中位数的方式最优。
(2)模拟了 Ks 值随时间累积系数 v 的变化过程下的 Ks 分布。当假设 v 服从正态分布时,Ks 分布出现了长尾现象。
(3)将矫正方法在被子植物中的应用,发现不同谱系的被子植物具有同步的辐射进化和适应性进化现象。而且被子植物的进化速率虽然差异显著,但不同分支间的进化速率仍具有部分一致性。例如,木兰类植物进化速率最慢,真双子叶植物次之,单子叶植物进化速率最快。最终得到了相对可靠的物种的演化时间轴,为植物研究提供系统发育和演化的支撑。
被子植物的起源和早期快速演化及其发生时间一直是生物学的研究热点。当前估算物种演化时间的方法主要是基于分子钟假设,即以某几个特定类群的化石时间作为校正点,然后通过部分基因序列间的相似性,假设不同的物种拥有相同或相近的进化速率,来估算系统发育树上某一节点的时间,从而推断出该类群的起源时间(唐先华等,2002;Donoghue&Yang, 2016;Luo et al., 2020)。然而,近年的研究表明,不同物种的分子钟常常具有显著差异,即不同物种的进化速率有显著不同(Wang et al.,2015;Wang et al.,2017;Wang et al.,2018;Wang et al., 2019),不同年代也具有不同的进化速度(罗静和张亚平,2000;Smith&Donoghue, 2008)。而且在不同的研究中,对分子进化速率的估算有很大的差异(Lanfear et al.,2010)。除此之外,引入的化石时间对估算的时间影响很大,随着更多化石且更准确的年份测定,被子植物演化的时间尺度也会随之变动(Hug&Roger,2007;Wang et al.,2015;Silvestro et al., 2021)。
基因组测序揭示了历史上反复的多倍化事件(Ren et al.,2018),多倍化事件使基因组内所有基因发生重复,且基因组中的古老同源区域常常有相当数目的重复基因保留下来,形成目前基因组内或者基因组间的共线性同源基因(Jiao et al.,2011)。对共线性同源基因的分析,是揭示古代的多倍化或物种分歧事件并推定其发生时间和规模的重要途径。多倍化发生后植物基因组常常会变得很不稳定,进化速率也变得显著不同。由于减少了选择性约束,这些重复基因通常以更快的速度进化(Wang et al.,2016)。例如在葫芦科植物基因组的研究中,发现甜瓜的进化速度最慢,西瓜和黄瓜的进化速度分别快 23.6% 和 27.4%(Wang et al., 2018)。
一般认为,同义替换率(synonymous substitution rate,Ks)往往不会改变氨基酸的组成,不受自然选择的影响。因此,Ks 分布常常作为判定物种历史上发生的多倍化或物种分歧事件的依据(Vanneste et al., 2013)。依据共享的演化事件应该有相同的 Ks 峰值,Wang 等人首次提出了基于 Ks 峰值的矫正方法用以估算物种演化的时间尺度,得到了其他研究工作者的认可,还被广泛应用于他们的研究中(Zhuang et al.,2019;Shang et al.,2020;Song et al., 2020;Yang et al., 2020;Song et al., 2021;Wang et al., 2021)。例如两个团队分别对睡莲(Zhang et al., 2020a)和芡实(Yang et al., 2020)基因组分析,Yang 等人通过 Ks 峰值矫正的方式估算的芡实古老多倍化(被证实为睡莲目共享)与另外的团队基于睡莲目的转录组数据估算的时间尺度基本一致。基于 Ks 峰值的矫正方法中,获得准确的 Ks 峰是准确估算时间尺度的关键。然而,当前获取 Ks 分布的方式不统一而且常常带有长尾现象(Tang et al.,2008)。为何 Ks 分布会有长尾现象?长尾现象对 Ks 峰是否有重要影响等问题,也尚未有清晰的表述。
目前,已有 400 余种被子植物的基因组得到不同水平的测定,便于在全基因组的尺度上理解这些被子植物的演化历程(Kress et al.,2022)。全基因组数据能有效消除横向基因转移和类群间基因进化速率差异等因素对系统发育树的影响。因此,急需在全基因组数据层面上,利用新的方法对被子植物的演化时间进行重新估计。该文拟对三种获取 Ks 分布的方式进行比较,明确哪种方式获得的 Ks 峰值更接近真实情况;对于 Ks 分布中常见的长尾现象,采用模拟仿真的方式,探究出现长尾现象的原因;区分共享多倍化和共享早期分化两种情况,创建基于全基因组数据的 Ks 分布矫正模型,对 44 个代表性被子植物基因组演化事件的时间尺度进行重新估计,得到相对可靠的被子植物演化时间轴。这有助于更深层地了解被子植物多样性和系统发育以及被子植物基因组的进化模式。
1 材料与方法
1.1 基因组数据材料
收集 44 个高质量染色体水平的被子植物基因组(主要来自 NCBI 和 PHYTOZOME),共包含 43 科 39 目(表 1)。
1.2 方法
1.2.1 共线性分析
使用 WGDI v0.5.3(Sun et al., 2021)软件进行共线性分析。首先,使用 BLASTP 来识别基因组内或基因组间的基因相似性。随后,用 WGDI 软件的‘-d’子程序绘制同源点阵图,并运行‘-icl’子程序获得共线性基因。
1.2.2 Ks 分布
Ks 分布主要是通过 WGDI 软件完成的。首先,使用 WGDI 软件的‘-ks’子程序调用 PAML(Yang, 2007)软件计算共线性基因对的 Ks 值。通过‘-bi’子程序整合共线性和 Ks 值的结果,并使用 WGDI 软件的‘-bk’子程序查看共线基因的 Ks 值的分布,结果以点图的形式展示(图 1:A)。根据物种内或种间已知的多倍化或分歧事件,通过 WGDI 的‘-c’子程序对共线性片段进行过滤,只保留多倍化事件或分歧事件产生的共线性片段。然后,通过 WGDI 的‘-kp’子程序获取 Ks 分布(图 1:B)。最后,使用 WGDI 中的 “-pf” 子程序对不同事件分别进行拟合并获取 Ks 分布(图 1:C)。
2 结果与分析
2.1 Ks 分布和长尾现象解析
Ks 分布常常用来判定物种历史上发生的多倍化或物种分歧事件的依据。目前获取 Ks 分布主要有三种方式。方式一:通过 OrthoMCL(Li et al.,2003)等聚类软件获取旁系同源基因对,然后计算这些同源基因对的 Ks 值并绘制 Ks 分布图。方式二:先进行基因组共线性分析,然后计算共线性基因对 Ks 值并绘制 Ks 分布。方式三:在方式二的基础上,提取共线性区块上 Ks 值的中位数并绘制 Ks 分布。三种方式中,方式一由于没有共线性分析,所获取的旁系同源基因对常常会有大量串联重复基因从而影响 Ks 分布。方式二和三都经过了共线性分析,当把共线性区块(长度大于 5)上同源基因对的 Ks 值以点图的形式展示出来时(图 1:A),这里以水稻为例,可以看到大部分由绿色的点组成的片段,例如 8 号与 9 号染色体,这与水稻近期的一次多倍化事件相符。Ks 点图中大部分点的颜色相近,说明 Ks 值波动很小。对共线性区域的 Ks 值的中位数(方式三)、平均值和所有的基因对(方式二)进行正态分布拟合(带宽为 0.01,homo 范围 0.3-1)(图 2:B),可以看到方式二并没有产生明显的峰,而且 Ks 分布整体带有长长的尾巴。方式三和区块的平均值的 Ks 分布有明显峰值,数据更为集中。由于中位数是对总体中心很好的估计,且稳健性更强,中位数的峰值颜色和 Ks 点图的颜色更为接近,因此区块的 Ks 值的中位数更接近 Ks 真正的峰值,对方式三的 Ks 分布按照正态分布拟合来提取 Ks 峰值(图 1:C)
为了进一步解析长尾现象,模拟了 Ks 分布随进化速率的演变过程。假设最初的 Ks 分布服从正态分布 X~N (μ,σ²),其中期望 μ(峰值)和标准差 σ 为常数。分子钟理论认为基因的进化速率是相对恒定的,因此定义 v (v>1),代表 Ks 值的时间累积系数,表示初始 Ks 值随时间演化不断累积,模拟真实情况下的恒定进化速率。而其他研究表明分子钟也并非等速进行,同时假设 v 也服从正态分布 X~N (μᵥ,σᵥ²),对这两种假设分别进行了数据仿真模拟。Ks 值随着时间的推移进行迭代为 X',迭代次数为 n。
当 v 为常数值时,
X'=X*vⁿ
当 v 服从正态分布时,
X'=X*Xᵥⁿ
当假设 Ks 值的时间累积系数 v 为一个常数值时,设置假设的 Ks 分布为 X~N (μ,σ²),依据 Ks 分布数据特征,设定 μ=0.2,σ=0.01,v=1.02,n=100。每迭代 10 次,绘制 Ks 分布结果(图 2:A)。随着进化事件的推移,Ks 峰值也逐渐变大,Ks 分布依旧完美符合正态分布且没有明显的长尾分布现象。
当假设 Ks 值的时间累积系数 v 服从正态分布时,最初设置假设的 Ks 分布为 X~N (μᵥ,σᵥ²),其中 μ=0.2,σ=0.01,μᵥ=1.02,σᵥ=0.01,n=100。每迭代 10 次,绘制 Ks 分布结果(图 2:B)。随着进化事件的推移,Ks 峰值也逐渐变大,Ks 分布也不再是正态分布,并带有明显的长尾现象。这种假设所得到的结果更接近于真实情况,因此,基因的进化速率不是相对恒定的,它可能并非等速进行,而是在不同年代具有不同的进化速度,这可能也符合正态分布。对模拟的 Ks 分布再次通过高斯拟合获取峰值时,发现 Ks 峰值与进化速率匀速时的没有明显差异(表 2)。因此,Ks 分布中长尾现象对提取到的 Ks 峰值的影响较小。
Table 2 Ks peaks under simulations at different evolution rates
迭代次数(Number of iterations) | 匀速分布(Uniform distribution) | 正态分布(Normal distribution) | 差异(Difference) |
---|---|---|---|
0 | 0.200 | 0.200 | 0.000 |
10 | 0.244 | 0.243 | -0.001 |
20 | 0.297 | 0.297 | 0.000 |
30 | 0.362 | 0.355 | -0.007 |
40 | 0.442 | 0.431 | 0.010 |
50 | 0.538 | 0.531 | 0.008 |
60 | 0.656 | 0.650 | -0.006 |
70 | 0.800 | 0.792 | -0.008 |
80 | 0.975 | 0.961 | -0.014 |
90 | 1.189 | 1.180 | -0.009 |
100 | 1.449 | 1.442 | -0.007 |
2.2 Ks 分布矫正方法
被子植物基因组常常经历不止一次多倍化事件,由于不同物种的进化速率显著不同,导致共享的多倍化事件的 Ks 峰值也大不相同。而 Ks 分布矫正方法的核心理念就是将这些共享事件的 Ks 峰矫正到一起。根据共享事件的不同,Ks 分布矫正方法又分为共享多倍化和共享分化两种情况。
(1)共享多倍化事件的矫正
如果物种 A、B 存在共享的多倍化事件,那么这次多倍化事件在不同物种中发生的时间应该是相同的,Ks 峰值也应该是相等的(图 3:A)。黄色方块代表两个物种共享的多倍化,即 Ksᵃᵃ=Ksᵇᵇ,对应的时间范围为物种 A、B 从多倍化事件到当前的时间点(绿色的大括号)。
由于物种进化速率不同,现实中 Ksᵃᵃ和 Ksᵇᵇ并不相等。假设多倍化事件后,物种 A 和 B 的进化速率分别为 vᴬ和 vᴮ;O 是物种 A、B 的分化节点,从多倍化事件到分歧点 O,物种 A、B 的祖先的进化速率为 v。那么:
- 物种 A 的进化速率 vᴬ恢复到 v 需乘以矫正系数 λᴬ=v/vᴬ;
- 物种 B 的矫正系数为 λᴮ=v/vᴮ。
因此,物种 A、B 间分化的 Ksᵃᵇ矫正后为:
Ksᵃᵇ⁻ᶜᵒʳʳᵉᶜᵗⁱᵒⁿ = Ksᵃᵇ × λᴬ × λᴮ(Yang et al., 2020)。
(2)共享早期分化事件的矫正
如果两个物种 A、B 不存在共享的多倍化事件但存在共享的早期分化事件时,需通过寻找外类群辅助矫正(图 3:B)。
物种 C、D、E 为外类群,物种 C 和 D 的祖先在 P 点与物种 A、B 的祖先分化,因此:
- 物种 C 与 A、B 间的 Ks 峰值应相等(Ksᶜᵃ=Ksᶜᵇ);
- 物种 D 与 A、B 间的 Ks 峰值应相等(Ksᵈᵃ=Ksᵈᵇ)。
但由于物种间进化速率不同,现实中这些值大多不相等。按照前述假设:
- Ksᶜᵃ⁻ᶜᵒʳʳᵉᶜᵗⁱᵒⁿ = Ksᶜᵃ × λᶜ × λᴬ = Ksᶜᵃ × λᴬ/λᶜ⁻¹,即 λᴬ/λᶜ = Ksᶜᵇ/Ksᶜᵃ;
- 同理,Ksᶜᵇ⁻ᶜᵒʳʳᵉᶜᵗⁱᵒⁿ = Ksᶜᵇ × λᶜ × λᴮ = Ksᶜᵇ × λᴮ/λᶜ⁻¹,即 λᴮ/λᶜ = Ksᶜᵃ/Ksᶜᵇ;
- Ksᵈᵃ⁻ᶜᵒʳʳᵉᶜᵗⁱᵒⁿ = Ksᵈᵃ × λᵈ × λᴬ = Ksᵈᵃ × λᴬ/λᵈ⁻¹,即 λᴬ/λᵈ = Ksᵈᵇ/Ksᵈᵃ;
- Ksᵈᵇ⁻ᶜᵒʳʳᵉᶜᵗⁱᵒⁿ = Ksᵈᵇ × λᵈ × λᴮ = Ksᵈᵇ × λᴮ/λᵈ⁻¹,即 λᴮ/λᵈ = Ksᵈᵃ/Ksᵈᵇ。
可见,选取的外类群越多,获取的 λᴬ和 λᴮ的关系越准确。最终取平均值表示二者关系:
λᴬ/λᴮ = mean(Ksᶜᵇ/Ksᶜᵃ, Ksᵈᵇ/Ksᵈᵃ, ...)。
2.3 被子植物系统发育树时间矫正
目前,许多基于系统发育树的方法推测被子植物的演化时间,认为其起源于三叠纪 225 百万年至 240 百万年前(Magallón, 2010),这与起传粉作用的核心植食性鳞翅目昆虫的起源时间(约 230 百万年前)一致(Li et al., 2019)。由于无油樟目和睡莲目、核心被子植物五大分支之间的关系尚未完全解析,多个证据暗示核心被子植物祖先可能发生了快速辐射分化(Yang et al., 2020)。
因此,在矫正过程中,以无油樟目为参考,不讨论其与睡莲目的关系,并认为五大分支的分化时间尺度处于同一范围。基于核心真双子叶植物共享的 γ 事件(时间范围为 115-130 百万年前),对 44 个被子植物基因组(表 1)进行了时间尺度矫正(图 4)。
物种(Species) | 目(Order) | 科(Family) | 数据来源(Datasource) |
---|---|---|---|
无油樟(Amborella trichopoda) | 无油樟目(Amborellales) | 无油樟科(Amborellaceae) | Index of /genomes/all/GCF/000/471/905/GCF_000471905.2_AMTR1.0 |
蓝星睡莲(Nymphaea colorata) | 睡莲目(Nymphaeales) | 睡莲科(Nymphaeaceae) | Phytozome |
鹅掌楸(Liriodendron chinense) | 木兰目(Magnoliales) | 木兰科(Magnoliaceae) | https://www.ncbi.nlm.nih.gov/genome/45466 |
牛樟(Cinnamomum kanehirae) | 樟目(Laurales) | 樟科(Lauraceae) | https://www.ncbi.nlm.nih.gov/genome/57158 |
卷毛马兜铃(Aristolochia fimbriata) | 胡椒目(Piperales) | 马兜铃科(Aristolochiaceae) | BIG Search - National Genomics Data Center - BIG Search |
柳叶蜡梅(Chimonanthus salicifolius) | 樟目(Laurales) | 蜡梅科(Calycanthaceae) | https://www.ncbi.nlm.nih.gov/genome/82066?genome_assembly_id=1651656 |
紫萍(Spirodela polyrhiza) | 泽泻目(Alismatales) | 天南星科(Araceae) | JGI Data Portal |
水稻(Oryza sativa) | 禾本目(Poales) | 禾本科(Poaceae) | Phytozome |
菠萝(Ananas comosus) | 禾本目(Poales) | 凤梨科(Bromeliaceae) | Phytozome |
椰子(Cocos nucifera) | 棕榈目(Arecales) | 棕榈科(Arecaceae) | The genome draft of coconut (Cocos nucifera) |
油棕(Elaeis guineensis) | 棕榈目(Arecales) | 棕榈科(Arecaceae) | Index of /genomes/all/GCF/000/442/705 |
小果野蕉(Musa acuminata) | 姜目(Zingiberales) | 芭蕉科(Musaceae) | Genome - NCBI - NLM |
鼓槌石斛(Dendrobium chrysotoxum) | 天门冬目(Asparagales) | 兰科(Orchidaceae) | https://www.ncbi.nlm.nih.gov/genome/41833 |
文竹(Asparagus setaceus) | 天门冬目(Asparagales) | 天门冬科(Asparagaceae) | Dryad | Data: Chromosome-level genome assembly, annotation and evolutionary analysis of the ornamental plant Asparagus setaceus |
金鱼藻(Ceratophyllum demersum) | 金鱼藻目(Ceratophyllales) | 金鱼藻科(Ceratophyllaceae) | https://genomevolution.org/CoGe/GenomeInfo.pl?gid=56569 |
莲(Nelumbo nucifera) | 山龙眼目(Proteales) | 莲科(Nelumbonaceae) | Index of /genomes/all/GCF/000/365/185/GCF_000365185.1_Chinese_Lotus_1.1 |
昆栏树(Trochodendron aralioides) | 昆栏树目(Trochodendrales) | 昆栏树科(Trochodendraceae) | http://gigadb.org/dataset/view/id/100657/File_page/5 |
洛杉矶耧斗菜(Aquilegia coerulea) | 毛茛目(Ranunculales) | 毛茛科(Ranunculaceae) | JGI Data Portal |
油蜡树(Simmondsia chinensis) | 石竹目(Caryophyllales) | 油蜡树科(Simmondsiaceae) | BIG Search - National Genomics Data Center - BIG Search |
中华猕猴桃(Actinidia chinensis) | 杜鹃花目(Ericales) | 猕猴桃科(Actinidiaceae) | ftp://www.whiteflygenomics.org/pub/kiwifruit/A_chinensis/Red5/v1.0/Red5_genome_v1.0.fa.gz |
杜鹃(Rhododendron simsii) | 杜鹃花目(Ericales) | 杜鹃花科(Ericaceae) | https://www.ncbi.nlm.nih.gov/genome?LinkName=bioproject_genome&from_uid=588298 |
油橄榄(Olea europaea) | 唇形目(Lamiales) | 木樨科(Oleaceae) | https://www.ncbi.nlm.nih.gov/genome/?term=Olea+europaea |
大星牵牛(Ipomoea trifida) | 茄目(Solanales) | 旋花科(Convolvulaceae) | Dryad | Data: Genome sequences of two diploid wild relatives of cultivated sweetpotato reveal targets for genetic improvement |
中粒咖啡(Coffea canephora) | 龙胆目(Gentianales) | 茜草科(Rubiaceae) | Genome - NCBI - NLM |
红花(Carthamus tinctorius) | 菊目(Asterales) | 菊科(Asteraceae) | Safflower Download |
芹菜(Apium graveolens) | 伞形目(Apiales) | 伞形科(Apiaceae) | http://celerydb.bio2db.com |
葡萄(Vitis vinifera) | 葡萄目(Vitales) | 葡萄科(Vitaceae) | Download | Vitis vinifera cv. Cabernet Sauvignon cl. 08 v1.1 |
野黄瓜(Cucumis hystrix) | 葫芦目(Cucurbitales) | 葫芦科(Cucurbitaceae) | Genome assembly of Cucumis hystrix |
菜豆(Phaseolus vulgaris) | 豆目(Fabales) | 豆科(Fabaceae) | https://www.ncbi.nlm.nih.gov/genome/?term=Phaseolus+vulgaris |
雷公藤(Tripterygium wilfordii) | 卫矛目(Celastrales) | 卫矛科(Celastraceae) | https://www.ncbi.nlm.nih.gov/genome/12874 |
苹果(Malus domestica) | 蔷薇目(Rosales) | 蔷薇科(Rosaceae) | Genome - NCBI - NLM |
欧洲大叶杨(Populus trichocarpa) | 金虎尾目(Malpighiales) | 杨柳科(Salicaceae) | https://www.ncbi.nlm.nih.gov/genome/?term=Populus+trichocarpa |
垂枝桦(Betula pendula) | 壳斗目(Fagales) | 桦木科(Betulaceae) | https://genomevolution.org/CoGe/GenomeInfo.pl?gid=35080 |
杨桃(Averrhoa carambola) | 酢浆草目(Oxalidales) | 酢浆草科(Oxalidaceae) | BIG Search - National Genomics Data Center - BIG Search |
可可树(Theobroma cacao) | 锦葵目(Malvales) | 锦葵科(Malvaceae) | Genome - NCBI - NLM |
大桉(Eucalyptus grandis) | 桃金娘目(Myrtales) | 桃金娘科(Myrtaceae) | Genome - NCBI - NLM |
漾濞槭(Acer yangbiense) | 无患子目(Sapindales) | 无患子科(Sapindaceae) | http://gigadb.org/dataset/100610 |
珙桐(Davidia involucrata) | 山茱萸目(Cornales) | 蓝果树科(Nyssaceae) | BIG Search - National Genomics Data Center - BIG Search |
伯乐树(Bretschneidera sinensis) | 十字花目(Brassicales) | 叠珠树科(Akaniaceae) | Genome - NCBI - NLM |
连香树(Cercidiphyllum japonicum) | 虎耳草目(Saxifragales) | 连香树科(Cercidiphyllaceae) | https://doi.org/10.1111/nph.16798 |
四川金粟兰(Chloranthus sessilifolius) | 金粟兰目(Chloranthales) | 金粟兰科(Chloranthaceae) | https://github.com/yongzhiyang2012/Chloranthus-sessilifolius-genome/tree/main/Annotation |
参薯(Dioscorea alata) | 薯蓣目(Dioscoreales) | 薯蓣科(Dioscoreaceae) | Phytozome |
芒苞草(Acanthochlamys bracteata) | 露兜树目(Pandanales) | 翡若翠科(Velloziaceae) | Genome - NCBI - NLM |
滇南黄杨(Buxus austroyunnanensis) | 黄杨目(Buxales) | 黄杨科(Buxaceae) | Dryad | Data: Buxus and Tetracentron genomes |
核心被子植物(Mesangiospermae) | 物种(Species) | Ks 峰值(Ks peaks) | 平均值(Average values) |
---|---|---|---|
真双子叶植物(Eudicots) | 昆栏树(Trochodendron aralioides) | 1.671 | 1.743 |
连香树(Cercidiphyllum japonicum) | 1.70 | ||
滇南黄杨(Buxus austroyunnanensis) | 1.750 | ||
葡萄(Vitis vinifera) | 1.804 | ||
洛杉矶耧斗菜(Aquilegia coerulea) | 1.789 | ||
木兰类植物(Magnoliids) | 鹅掌楸(Liriodendron chinense) | 1.628 | 1.651 |
牛樟(Cinnamomum kanehirae) | 1.642 | ||
柳叶蜡梅(Chimonanthus salicifolius) | 1.684 | ||
单子叶植物(Monocots) | 水稻(Oryza sativa) | 2.273 | 2.082 |
紫萍(Spirodela polyrhiza) | 2.210 | ||
椰子(Cocos nucifera) | 1.834 | ||
菠萝(Ananas comosus) | 2.106 | ||
芒苞草(Acanthochlamys bracteata) | 2.117 | ||
参薯(Dioscorea alata) | 1.950 |
从矫正后的时间尺度来看:
- 被子植物在 130 百万年前左右,单子叶植物、真双子叶植物、木兰类植物的祖先均发生了快速辐射进化,与先前结论一致(Zhang et al., 2020b)。
- 早白垩世(130 百万年)、白垩纪 - 古新世(K-Pg)边界时期(66 百万年)和中新世(20 百万年,接近冰川期),许多被子植物发生了多倍化事件,与 “被子植物系统发育中全基因组加倍(WGD)时间并非随机分布” 的先前研究结论一致(Wu et al., 2020)。
尽管不同物种的进化速率数值差异显著,但同一类群的进化速率往往具有部分一致性。根据矫正方法,矫正后的 Ks 峰应相等,因此 Ks 峰值越大,表明进化速率越快。通过比较木兰类植物、真双子叶植物、单子叶植物与无油樟的 Ks 峰值发现:
- 木兰类植物(多为木本)进化速率最慢;
- 真双子叶植物(多为灌木)次之;
- 单子叶植物(多为草本)进化速率最快(表 3),这与 “多年生木本植物比草本植物分子进化速率快” 的结论相符(Lanfear et al., 2013)。
此外,比较多倍化事件发生时间与矫正前后的 Ks 峰值(图 5)发现:
- 矫正前的 Ks 峰值与时间并非线性关系,Ks 峰值增大时,多倍化事件发生时间并未更古老;
- 矫正后的 Ks 峰值与时间成正比。因此,对 Ks 峰值进行矫正后再估算物种演化事件时间十分必要。
3 讨论与结论
长期以来,被子植物演化时间尺度的估算主要基于分子钟假设,但分子进化异速现象的广泛存在严重影响了其准确性。Wang 等人提出的基于 Ks 分布的矫正方法,获得了令人信服的时间尺度。
本研究的主要结论如下:
- 比较三种获取 Ks 分布的方式后,明确通过提取共线性区块上 Ks 值的中位数更能代表真实的 Ks 峰值。
- 解析 Ks 分布的长尾现象发现:基因进化速率并非恒定或等速,而是符合正态分布;此时 Ks 分布会出现明显长尾现象,但不影响提取的 Ks 峰值的准确性。(注:先前研究表明,Ks 值大于 1 时易受饱和效应影响,且随 Ks 值增大效应更明显(Vanneste et al., 2013),本研究模拟的 Ks 峰值范围接近 1,若进一步增大,估计值可能受饱和效应影响。)
- 首次全面描述了基于 Ks 峰值的矫正方法(涵盖共享多倍化和共享早期分化两种情况),有助于该方法的深入理解和传播。
- 基于该方法重新估算 44 个高质量被子植物基因组的演化事件时间尺度,结果与近期发表的时间尺度基本一致(Li et al., 2019;Wu et al., 2020),并表明:
- 被子植物基因组进化速率差异显著,但不同分支间仍具有一致性;
- 不同谱系的被子植物存在同步的辐射进化和适应性进化现象。
随着更多高质量被子植物基因组的公布和有效化石年份的准确测定,被子植物演化的时间尺度将更加清晰,这将更有利于植物系统发育的构建和对物种演化历程的深层次理解。