scMETA教程 | 可视化单细胞宏基因组的在线平台-CSDN博客

scMETA使用说明

1、简介

单细胞宏基因组测序是⼀种新兴⽅法，它能捕捉微⽣物多样性和菌株级变异，克服了传统宏基因组⽅法的局限性。然而分析这种复杂的数据需要大量专门工具所构建的流程，对于没有开发能⼒的用户往往很难串联这些⼯具以及使⽤这些流程。

scMETA 是⼀个用于分析和可视化单细胞宏基因组的Web平台。该平台接受原始测序reads（FASTQ），并实现全⾃动化⼯作流程，包括读数预处理、质量控制、物种鉴定与功能注释、变异检测、亚种聚类和系统发育分析。该平台⽀持跨菌株和单个细胞的⽐较分析，并能⽣成交互式、出版级的可视化效果。该平台的控制⾯板让⽤户可以⾃定义设置，⽆需编程即可获得可发表的结果。scMETA 将所有关键的⼯作流程步骤整合在⼀个直观、免编程的界⾯中，可通过标准的⽹络浏览器访问，从⽽使单细胞宏基因组分析简单化，使没有编程能⼒的研究⼈员可以探索复杂群落中微⽣物菌株的多样性和功能异质性。所有可视化结果均可下载。

2、界面设计

如下图所示，⽤户界⾯分为三个区域：顶部的⼯具栏（Toolbar）、左侧的主要操作区（Manipulation Area）和右侧的可视化区（Visualization Area）。操作区主要包括参数区和控制⾯板，可⽤于提交参数和选择数据处理管道。在可视化区域进⾏绘图，部分功能⽀持可交互的动态绘图。

3、功能模块

3.1、Project List

scMETA 允许将多个样本打包为压缩包上传，并为⽤户提供临时项⽬/样本管理模块。

scMETA 内置两个演示项⽬，旨在清楚地说明其功能，帮助⽤户更快上⼿。此外，还提供了⼀个可下载的示例项⽬，指导⽤户上传⾃⼰的数据。

上传原始测序数据并进⾏从头数据分析

除了 FASTQ 格式的原始成对末端测序⽂件外，如果有分组，⽤户还必须上传⼀个名为 “group.txt” 的⽂件，以便为 scMETA 提供必要的分组信息。FASTQ ⽂件和group.txt ⽂件（如适⽤）应打包成 .zip 或 .tar.gz 压缩⽂件后再上传。服务器将检查输⼊格式并执⾏ FastQC 以验证数据完整性。服务器会标记不适当的样本，并在后续分析中⾃动丢弃。

请注意，这仅适⽤于⼩样本上传。如果样本数量超过⼗个，在线实时分析将因计算时间⽽⽆法使⽤，因此建议使⽤ “Submit Task” 模块上传数据并提交任务。

上传从 “Submit Task” 模块收到的结果⽂件，以便进⾏可视化处理

通过 “Submit Task” 模块提交的任务结果⽂件将作为电⼦邮件附件发送给⽤户。⽤户可以下载并查看这些⽂件。此外，⽤户还可以选择将结果上传到平台进⾏可视化。不过，⽬前仍不⽀持在线分析。

要开始分析，请点击右侧表格中的项⽬。您可以选择演示项⽬或新建项⽬进⾏后续分析。

说明：

1、Project Name

要创建新项⽬，请先在此处输⼊项⽬名称，默认为 “MyProject”。

2、Package and Upload Data

将所有⽂件打包成⼀个压缩⽂件并上传到这⾥（⽀持zip和tar.gz）。

3、Upload Data

输⼊项⽬名称并选择上传⽤户数据的本地路径。然后，单击按钮添加新项⽬。之后，新创建的项⽬以及系统⽣成的唯⼀ ID 将显示在右侧表格中。(注意：上传路径只⽀持英⽂字⺟、数字和字符）。

4、Upload Exemplar

这是⼀个测试案例，包括三个成对末端测序样本及其相应的分组信息。

5、Download Exemplar

将此测试⽤例下载到本地设备。⽤户可以查看服务器请求的数据格式，包括 group.txt⽂件的格式。

6、Upload the result file returned by scMETA

上传从 scMETA 电⼦邮件中收到的 ZIP ⽂件，以直观显示结果。

7、Project Information

项⽬详细信息的综合清单，包括项⽬ ID、项⽬名称、所含样本数量和组别信息。

8、Delect Project

选择⼀个项⽬并单击此按钮，即可删除该项⽬和所有相关数据。

3.2、Quality Control

采⽤ Fastp 来控制样本的质量。⽤户可以参考右侧表格中的指标来剔除不合格样本，并选择合适的样本进⾏进⼀步分析。默认情况下，不应⽤过滤剔除。

说明：

1、Run Quality Control

点击按钮运⾏质控流程

2、Filter Sample

当⽤户选择 “是 ”时，将显示包含各种筛选指标的刻度条。

3、Filter

设置完滑块后，单击按钮确认过滤。

4、Reset

重置过滤器，返回原始样本列表。

5、Fastp Summary Table

样本的各项指标值，包括：总 reads 数、过滤后 reads 数、过滤的 reads、Q30 率、GC 含量和 PCR Duplication 率。

3.3、Species Annotation

提供了两种注释微⽣物物种的常⽤⼯具： Kraken2（2.1.3 版）和 MetaPhlAn4（4.1.1 版）。

Kraken2 是⼀种基于 K-mer 的快速物种分类⼯具。它使⽤预先建⽴的数据库，将测序数据与数据库中的 K-mer 进⾏⽐较，以确定测序数据所属的物种。

Metamilan4 是⼀种基于标记基因的微⽣物组物种注释⼯具。它使⽤预先构建的标记基因数据库，将测序数据中发现的标记基因与数据库中的标记基因进⾏⽐较。

置信度与注释结果相对应，⽤户可以⾃定义阈值来过滤可信注释。

物种注释信息将显示在表格的右下⻆，同时还有桑基图和旭⽇图来显示物种组成。如果存在分组，则会显示分组的堆叠直⽅图。

说明：

1、Annotation Method

有两种⼯具可供选择： Kraken2 和 Metaphlan4。在分析单个微⽣物细胞的物种注释时，我们发现虽然 Metaphlan4 的置信度更⾼，但 Kraken2 却能在更短的时间内达到相当的注释准确度。

2、The reference database of Kraken2

有三个不同⼤⼩和类型的数据库可供使⽤，⽤户可以选择最适合实验背景和⽬标的数据库。⽅案 1 包括标准 + 原⽣动物 + 真菌（16 GB），⽅案 2 包括标准 + 原⽣动物 +真菌（69 GB），⽅案 3 包括标准 + 原⽣动物 + 真菌 + 植物（144 GB）。虽然较⼤的数据库通常能提供更⾼的注释精度，但也需要更多的处理时间。

3、Annotation Percentage Threshold

物种注释置信度默认设置为 60%。置信度低于该阈值的样本将被标注为“UnClassified”。

4、Run Species Annotation

点击按钮执⾏相关流程。

5、Show the Annotation Level

选择并查看特定注释级别的样本注释，包括⻔、纲、⽬、科、属和种。

6、Sunburst

显示所有样本的旭⽇图。将⿏标悬停在图上，可以看到每个注释所占的⽐例。

7、Sankey

显示所有样本的桑基图。将⿏标悬停在图表上，可以看到每个注释所占的⽐例。

8、Group Bar

如果存在分组，则会显示分组物种堆叠条形图。

9、Annotation confirm

物种注释表如下。⾏名与样本相对应。第⼀列包含总体注释信息，然后是⻔、纲、科和物种注释。最后⼀列显示了每个注释的可信度百分⽐。

10、Annotation level

基于物种注释的样本置信度矩阵会根据⽤户选择的注释级别显示出来。

11、Annotation Frequency by Groups

注释表是按物种级别组织的，有以下⼏列：组别（对照组或治疗组）、注释（根据所选注释级别⽽不同）和频率（样本数量）。

3.4、Gene Ontology Analysis

微⽣物样本使⽤ HUMAnN 3（3.7 版）进⾏功能注释。HUMAnN 3 通过将测序数据与预先建⽴的数据库（包括 UNIREF90、eggNOG 和 KEGG）进⾏⽐较，确定微⽣物组中的功能基因并估算其丰度。它采⽤ DIAMOND 和 BLAST 等多种⽐对⼯具来提⾼基因识别的准确性和覆盖率。

说明：

1、Run Function annotation

点击按钮执⾏流程

2、Show barplot

程序完成后，将在下拉框中返回功能注释列表，⽤户可从中选择感兴趣的代谢通路进⾏显示。

3、Metabolic Barplot

该条形图说明了相关代谢通路的物种分布特征。点击下载按钮，将图⽚保存到本地。

4、KEGG HeatMAP

KEGG 通路以热图的形式显示，以说明不同类群所表达的功能通路的差异。

5、Metabolic Pathway

代谢通路概述

6、KEGG Pathway

KEGG 通路概述

3.5、SNP & Subspecies

使⽤ Snippy（4.6.0 版）对微⽣物样本进⾏ SNP 分析。Snippy 可通过⽐较参考基因组和新⼀代测序（NGS）读数，快速检测单核苷酸多态性（SNP）和插⼊缺失突变（indels）。Snippy 由澳⼤利亚墨尔本⼤学的 Torsten Seemann 开发，⼴泛应⽤于基因组变异分析，尤其是微⽣物基因组学和病原体基因组变异研究领域。

SNP 分析基于物种注释模块的结果。请选择相应的物种样本。如果找不到样本，则会出现错误信息：“⽆法找到相应的注释信息。请先运⾏ ‘Species Annotation’ 模块！”

我们提供了⼀个演示示例，帮助⽤户更快地熟悉该模块的操作和功能。请点击“Upload the SNP Exemplar” 进⾏演示。

说明：

1、Select the species for SNP analysis

在进⾏ SNP 分析之前，必须先确定要分析的物种。选择不同的物种层次，下⾯的⽂本框会⾃动显示物种名称，⽤户可以从中选择⼀个。

2、Upload the Reference Genome

有两种选择。第⼀种是使⽤我们提供的演示程序，该程序旨在帮助⽤户快速熟悉模块的操作和功能。第⼆个选项是从 GenBank 等数据库下载参考基因组，然后上传⾄本地。

3、Run SNP Analysis

点击按钮执⾏流程

4、Show Sample SNP Sites

利⽤ Circle 图可视化单个细菌基因组中 SNP 的分布情况，直观地⽐较细菌样本之间的突变差异。

5、Subspecies Identification

微⽣物样本的亚种鉴定可以通过基于核⼼ SNPs 的分层聚类来实现。这种⽅法通过计算样本之间的遗传距离并将其划分为不同的亚群，从⽽阐明微⽣物种群的遗传结构。

6、Selection of genetic distance methods

选择计算样本之间的遗传距离的⽅法。以下是三种计算⽅法： A）5-mers 的布雷-柯蒂斯距离（Bray-Curtis Distance of 5-mers）：使⽤ R 软件包 vegan（⽅法：Bray）中的 vegdist 函数计算距离矩阵。B）5-mers 的 Jaccard 距离：使⽤ R 软件包 vegan 中的 VEGDIST 函数（⽅法：Jaccard）计算距离矩阵。C）基于 BLAST 打分矩阵（BLAST Scoring Matrix）计算曼哈顿距离（Manhattan Distance），由dist 函数实现。

7、Please enter the number of clusters

⽤户可以⾃定义类群的数量。

8、Clustering & Show HeatMAP

进⾏聚类分析，并以热图的形式展示结果。

9、Difference Analysis Based on HeatMAP-Clusters

分析组间差异。

10、Construct the Phylogenetic Tree

通过将多个样本与单⼀参考基因组进⾏⽐较，构建系统发⽣树。

11、Genome Circle

Circle 图显示所有样本参考基因组中不同位置的单核苷酸多态性（SNP）密度。从外到内，第⼀个圆圈显示参考基因组序列信息，包括序列名称（ID）和位置标度。第⼆个圆圈表示参考基因组序列的 GC 含量曲线，虚线表示平均 GC 含量。第三个圆圈描绘了 SNP 密度分布，利⽤ 2000 bp 滑动窗⼝来统计每个区间的 SNP 总数；颜⾊越深表示 SNP 密度越⾼。图例提供了参考基因组的基本信息，以及 SNP 检测结果的简要概述，包括碱基替换的类型和数量、碱基转换/反转⽐率以及其他相关统计信息。

12、Sample Circle

Circle 图说明了不同样本中突变位点的分布情况。最多可同时绘制三个样本进⾏⽐较。图上的点代表单核苷酸多态性（SNP）或插⼊-缺失（InDel）位点，颜⾊表示不同的变异类型（例如：SNP 的 A>C|T>G 替换）。每个点对应外圈上的刻度，该刻度表示突变位点在基因组上的位置，⽽纵轴上的数值则反映了突变位点的质量。

13、HeatMAP

热图主要说明样本基因组的突变状态，红⾊表示突变位点，蓝⾊表示未突变位点。

14、Tree

系统发⽣树使⽤ FastTree（2.1.11 版）构建，Tree 的分组基于热图聚类。

15、SNP Matrix

样本的 SNP 矩阵包括以下部分：CHR，表示参考基因组的染⾊体编号；POS，表示突变在染⾊体上的具体位置；REF，表示参考基因组上的碱基。随后的每⼀列都与每个样本的碱基相对应，以便与 REF 进⾏⽐较，确定该位置是否发⽣了突变。最后⼀列包含每个样本的详细突变信息。

16、Heatmap Cluster Table

样本聚类信息。

17、DiffAnalysis Table

Clusters 间差异分析。

3.6、Submit Task

如果需要分析的样本数量较多，⽽在线分析⼜不可⾏，⽤户可以在此打包并上传数据。配置必要的分析步骤和参数并提交指定的电⼦邮件地址后，scMETA 会在后台处理任务。根据数据量的⼤⼩，这⼀过程可能需要⼏天时间。任务完成后，分析结果将被发送到⽤户提供的电⼦邮件地址。

说明：

1、Upload Data

输⼊项⽬名称并选择⼀个本地路径上传⽤户数据，然后单击此按钮上传数据。

2、Upload Exemplar

这是⼀个测试案例，包括三个成对末端测序样本及其相应的分组信息。

3、Download Exemplar

将此测试⽤例下载到本地。⽤户可以查看服务器请求的数据格式，包括 group.txt ⽂件的格式。

4、Parameter Setting

对于⽤户数据，质量控制和物种注释是默认执⾏的步骤，因为功能注释和 SNP 分析取决于前两项分析的结果。有多种⽅法和数据库可⽤于物种注释。对于 SNP 分析，需要指定物种和参考基因组。

5、Submit the Task

输⼊有效的电⼦邮件地址并单击按钮。scMETA 将⾸先确定所选参数是否正确。确认⽆误后，scMETA 将接收任务。根据数据量的⼤⼩，这项任务可能需要⼏天的时间来执⾏，因此请耐⼼等待。分析完成后，结果将打包发送到⽤户提供的电⼦邮件地址。

6、Project Information

这是⼀个测试案例，包括三个成对末端测序样本及其相应的分组信息。

7、Parameter Information

⽤户所选参数概览。

更多推荐

（▼ 点击跳转）

高引文章 ▸▸▸▸

iMeta | 引用16000+，海普洛斯陈实富发布新版fastp，更快更好地处理FASTQ数据

高引文章 ▸▸▸▸

iMeta | 兰大张东组：使用PhyloSuite进行分子系统发育及系统发育树的统计分析

高引文章▸▸▸▸

iMeta | 唐海宝/张兴坦-用于比较基因组学分析的多功能分析套件JCVI

iMeta封面

1卷1期

1卷2期

1卷3期

1卷4期

2卷1期

2卷2期

2卷3期

2卷4期

3卷1期

3卷2期

3卷3期

3卷4期

3卷5期

3卷6期

4卷1期

4卷2期

4卷3期

iMetaOmics封面

1卷1期

1卷2期

2卷1期

2卷2期

期刊简介

“iMeta” 是由威立、宏科学和本领域数千名华人科学家合作出版的开放获取期刊，主编由中科院微生物所刘双江研究员和荷兰格罗宁根大学傅静远教授担任。目的是发表所有领域高影响力的研究、方法和综述，重点关注微生物组、生物信息、大数据和多组学等前沿交叉学科。目标是发表前10%(IF > 20)的高影响力论文。期刊特色包括中英双语图文、双语视频、可重复分析、图片打磨、60万用户的社交媒体宣传等。2022年2月正式创刊！相继被Google Scholar、PubMed、SCIE、ESI、DOAJ、Scopus等数据库收录！2025年6月影响因子33.2，中科院分区生物学1区Top，位列全球SCI期刊前千分之三(65/22249)，微生物学科2/163，仅低于Nature Reviews，学科研究类期刊全球第一，中国大陆5/585！

“iMetaOmics” 是“iMeta” 子刊，主编由中国科学院北京生命科学研究院赵方庆研究员和香港中文大学于君教授担任，目标是成为影响因子大于10的高水平综合期刊，欢迎投稿！

"iMetaMed" 是“iMeta” 子刊，专注于医学、健康和生物技术领域，目标是成为影响因子大于15的医学综合类期刊，欢迎投稿！

iMeta主页：

http://www.imeta.science

姊妹刊iMetaOmics主页：

http://www.imeta.science/imetaomics/

出版社iMeta主页：

https://onlinelibrary.wiley.com/journal/2770596x

出版社iMetaOmics主页：

https://onlinelibrary.wiley.com/journal/29969514

出版社iMetaMed主页：

https://onlinelibrary.wiley.com/journal/3066988x