EasyNanoMeta | 纳米孔宏基因组3物种注释方法
纳米孔宏基因组数据分析系列教程3----基于reads的物种注释
GitHub:https://github.com/P-kai/EasyNanoMeta
引文:Kai Peng, Yunyun Gao, Changan Li, Qiaojun Wang, Yi Yin, Muhammad Fazal Hameed, Edward Feil, Sheng Chen, Zhiqiang Wang, Yong-Xin Liu, Ruichao Li. 2025. Benchmarking of analysis tools and pipeline development for nanopore long-read metagenomics. Science Bulletin 70: 1591-1595. https://doi.org/10.1016/j.scib.2025.03.044
目录
EasyNanoMeta | 纳米孔宏基因组1简介及分析方法概述
EasyNanoMeta | 纳米孔宏基因组2宿主序列去除方法
三代纳米孔宏基因组物种注释
三代纳米孔宏基因组物种注释,是指利用第三代测序技术中的纳米孔(Nanopore)平台,对环境或生物样本中的全部微生物DNA进行测序,并对获得的长序列数据进行物种鉴定和分类注释的过程。相比较于二代宏基因组测序,三代纳米孔宏基因组在建库测序时无需PCR扩增,避免引入了PCR偏倚,能够更加真实的还原微生物群落中的物种组成;此外,由于更长的测序读长能够携带更多的碱基信息,相对于短读测序数据能够更好地区分不同物种之间的细微差别,提高物种分类分析的准确性。
三代纳米孔宏基因组物种注释方法
一. 用centrifuge工具:采用结合Burrows-Wheeler Transform(BWT)和Ferragina-Manzini(FM)索引的策略对序列分类进行优化。通过基因组压缩策略有效降低内存需求,能处理NT库级别的库索引。允许一条序列有多个物种标签,并可通过设置阈值将多个hits回归到LCA模式,针对multi-hit模式,通过EM算法进行丰度定量。
实战操作(详细用法可以在EasyNanoMeta主页的pipeline.sh脚本中查看)
1. 工具:centrifuge
2. 软件安装:
直接下载安装:
cd ~/toolswget https://github.com/DaehwanKimLab/centrifuge/archive/refs/tags/v1.0.4.tar.gztar -zxvf v1.0.4.tar.gzcd centrifuge-1.0.4make && make install prefix=~/tools/centrifuge-1.0.4
使用git克隆到本地进行编译安装:
git clone https://github.com/DaehwanKimLab/centrifugecd centrifugemakemake install prefix=~/tools/centrifuge-1.0.4
3. 数据库下载
mkdir -p ~/db/centrifugecd ~/db/centrifugewget https://zenodo.org/record/3732127/files/h%2Bp%2Bv%2Bc.tar.gz?Download=1tar -zxvf centrifuge_h+p+v+c.tar.gz
4. 下载人类痰液纳米孔宏基因组测序数据:
wget https://sra-downloadb.be-md.ncbi.nlm.nih.gov/sos5/sra-pub-zq-14/SRR008/8641/SRR8641383/SRR8641383.lite.1使用sratoolkit将NCBI的压缩文件形式解压:~/tools/sratoolkit.3.0.6-centos_linux64/bin/fastq-dump --split-3 SRR8641383.lite.1
5. 物种注释步骤
① 如果是fastq数据
i=SRR8641383 #样本名称~/tools/centrifuge/bin/centrifuge -p 24 \ #线程数设置为24-x ~/db/centrifuge/hpvc/hpvc \ #数据库路径-q ${i}.fastq \ #输入文件为fastq格式--report-file ${i}_centrifuge_report.tsv \ #物种分类报告-s ${i}_centrifuge_result.tsv #物种比对结果
② 如果是fasta数据
i=SRR8641383~/Tools/centrifuge/bin/centrifuge -p 24 \ -x ~/Database/centrifuge/hpvc/hpvc \ -f ${i}.fasta \ #输入文件为fasta格式--report-file ${i}_centrifuge_report.tsv \ -s ${i}_centrifuge_result.tsv
③ 将centrifuge格式报告转换为kraken2格式报告
i=SRR8641383~/tools/centrifuge/bin/centrifuge-kreport \ -x ~/db/centrifuge/hpvc/hpvc \ ${i}_centrifuge_result.tsv > ${i}_kraken_style_report.tsv
④ 结果解读
ls -lh centrifuge_report.tsv centrifuge_result.tsv centrifuge_kraken_report.tsv
centrifuge_report.tsv为centrifuge物种分类结果报告;
centrifuge_result.tsv为centrifuge物种分类结果;
centrifuge_kraken_report.tsv为centrifuge结果报告转化的kraken2格式的报告。
二. 用Kraken2工具:基于k-mer方法,将每一条序列分成多个k-mers,每个k-mer在分类数据库中寻找LCA,序列所有k-mers所在的分类及其祖先组成一个分类树,这个分类树每个节点的权重是序列k-mers分配到该分类的次数。分类树上每个root-to-leaf路径得分是这些权重总分,得分最高的路径是分类路径,然后将该路径分类标签分配给该序列。
实战操作(详细用法可以在EasyNanoMeta主页的pipeline.sh脚本中查看)
1. 工具:Kraken2
2. 软件安装:
Kraken2:conda create -n kraken2conda activate kraken2conda install -y kraken2
3. 数据库配置:
cd ~/db/kraken2_dbwget https://genome-idx.s3.amazonaws.com/kraken/k2_standard_20250402.tar.gztar -zxvf k2_standard_20250402.tar.gz
4. 物种注释步骤
使用kraken2进行物种分类
i=SRR8641383kraken2 \ --db ~/db/kraken2_db \ #数据库路径 --threads 24 \ #线程数 --report ${i}_kraken2_report.tsv \ #物种组成报告 --output ${i}_kraken2_result.tsv \ #物种组成比对结果 ${i}.fastq #输入fastq数据
结果示例如下:
三、centrifuge与kraken2准确性比较
在EasyNanoMeta开发过程中,为评估数据库类型、参数设置及物种分类软件对物种分类准确性的影响,作者采用了一个包含十种微生物种类的模拟微生物群落——ZymoBIOMICS作为基准测试模型。基于该标准群落,使用NanoSim构建了两类合成数据集:一类呈均匀分布(Even),另一类呈对数正态分布(Log)。在工具对比方面,使用Centrifuge工具搭配不同数据库(hpvc 和 nt)及不同的“min-hitlen”参数设置,来评估其分类准确性。而 Kraken2 的评估则基于不同的置信度阈值,并使用 k2_strand 数据库。使用准确率(Precision)、召回率(Recall)和 F1 分数作为分类性能的评估指标(图1)。在两组模拟数据集(Even 和 Log)上,Centrifuge 在所有指标上的表现均优于Kraken2,显示出其在长读长序列分类中的优越性。此外,在微生物基因组序列的相对丰度估计方面,Centrifuge和 Kraken2在默认参数下均能在属(genus)和种(species)层级上生成较为接近理论值的丰度分布(图1)。综上,评估结果表明,Centrifuge 更适用于纳米孔测序数据的物种分类分析。
图1. 物种分类工具,数据库以及参数对物种分类准确性的影响(Even模拟数据集)
总结
EasyNanoMeta中,开发者为用户提供了Kraken2与Centrifuge两种物种分类工具。但是,目前针对三代长读长或复杂群落,两者在速度-精度平衡、特殊场景应用上仍待优化,未来可探索算法融合或多特征整合,提升注释效率。此外,更多有关纳米孔宏基因组数据分析的方法可在EasyNanoMeta(https://github.com/P-kai/EasyNanoMeta)的主页查看。
参考文献:
Kai Peng, Yunyun Gao, Changan Li, Qiaojun Wang, Yi Yin, Muhammad Fazal Hameed, Edward Feil, Sheng Chen, Zhiqiang Wang, Yong-Xin Liu, Ruichao Li. 2025. Benchmarking of analysis tools and pipeline development for nanopore long-read metagenomics. Science Bulletin 70: 1591-1595. https://doi.org/10.1016/j.scib.2025.03.044
来源:Science Bulletin | 扬大王志强/基因组所刘永鑫开发纳米孔宏基因组分析流程EasyNanoMeta
Reference:
Themoula Charalampous, Gemma L. Kay, Hollian Richardson, Alp Aydin, Rossella Baldan, Christopher Jeanes, Duncan Rae, Sara Grundy, Daniel J. Turner, John Wain, Richard M. Leggett, David M. Livermore, Justin O’Grady. 2019. Nanopore metagenomics enables rapid clinical diagnosis of bacterial lower respiratory infection. Nature Biotechnology 37: 783-792. https://doi.org/10.1038/s41587-019-0156-5
宏基因组推荐
本公众号现全面开放投稿,希望文章作者讲出自己的科研故事,分享论文的精华与亮点。投稿请联系小编(微信号:yongxinliu 或 meta-genomics)
猜你喜欢
iMeta高引 fastp PhyloSuite ImageGP2 iNAP2 ggClusterNet2
iMeta工具 SangerBox2 美吉2024 OmicStudio Wekemo OmicShare
iMeta综述 高脂饮食菌群 发酵中药 口腔菌群 微塑料 癌症 宿主代谢
10000+:扩增子EasyAmplicon 比较基因组JCVI 序列分析SeqKit2 维恩图EVenn
iMetaOmics高引 猪微生物组 16S扩增子综述 易扩增子(EasyAmplicon)
点击阅读原文