OrthoFinder功能、流程和文件注释

OrthoFinder 功能

  1. 查找直系同源组和直系同源物
  2. 推断所有直系同源组的有根基因
  3. 识别基因树中的所有基因重复事件
  4. 推断有根物种树,并将基因复制事件从基因树映射到物种树上
  5. 为不同物种基因组间的比较分析提供全面的统计信息

OrthoFinder 功能及优势

  1. 使用 DIAMOND 软件进行 blast,大幅提高 blast 速度。
  2. 使用所有 orthogroups 推断物种树,而非只使用单拷贝直系同源组推断物种树,将大量的非单拷贝基因信息利用起来。
  3. 利用 基因复制事件的不可逆性,实现不依赖外群而生成有根物种树和有根基因树。
  4. 安装、使用简单且提供全面的统计信息,基本满足与进化有关相关的分析的所有需求。
  5. 通过修改 config.json 文件,OrthoFinder 支持用户自定义调用软件。

OrthoFinder 工作流程

  1. 使用 DIAMOND 软件 对输入序列进行 all-vs-all 序列比对。
  2. 使用 MCL(Markov Cluster Algorithm)算法根据比对结果进行聚类,得到直系同源组(orthogroup)。其中每个 orthogroup 的蛋白及序列信息存放在 Orthogroup_Sequences 文件夹中,单拷贝 orthogroup 的蛋白及序列信息存放在 Single_Copy_Orthologue_Sequences 文件夹中,orthogroup 的统计信息存放在 Comparative_Genomics_StatisticsOrthogroups 文件夹中。
    如 OrthoFinder 自带案例(ExampleData)中总共包含 2733 个基因,MCL 将 2202 个基因划分为 604 个 orthogroups(gene_num > 2),剩余 531 个基因为离散点(每个基因独立成组)。
  3. 使用 FastMe软件 对每个 orthogroup(gene_num >= species_num)构建无根基因树(gene tree)。如自带案例中总共生成 324 个基因树文件。
  4. 使用 STAG(Species Tree Inference from All Genes)软件根据 orthogroups(包含所有物种,如自带案例推断出的 604 个 orthogroups 中只有 316 个 orthogroups 中的同源基因在所有物种中均有分布)推断无根物种树(species tree)。通过参数 -M dendroblast 或 -M msa,OrthoFinder 可以调用 STAG 中两种构建物种树的方法:DendroBLAST(默认) 和 CMSA(Concatenated Multiple Sequence Alignment,联合多序列比对)
  5. 使用 STRIDE(Species Tree Root Inference from Gene Duplication Events) 通过基因复制事件的不可逆性为无根物种树、无根基因树赋根,得到有根物种树、有根基因树、基因间的直系同源关系、基因复制事件。结果存放在文件夹 Species_Tree、Gene_Tree、Orthologues、Gene_Duplication_Events、Comparative_Genomics_Statistics 中。

OrthoFinder 输入文件说明

OrthoFinder 将默认读取(-f)指定文件夹内所有以 .fa、.faa、.fasta、.fas、.pep 结尾的 蛋白序列文件 作为输入。

OrthoFinder 输出文件说明

OrthoFinder 的标准输出包括:直系同源组,直系同源基因,有根基因树,解析基因树,无根物种树、有根物种树,基因重复事件以及相关的统计数据。

  1. Orthogroups 文件夹
    Orthogroups.tsv、Orthogroups.txt:记录了 MCL 中 成功聚类(直系同源组中基因数 >= 2)的每个 Orthogroup 所包含的基因。
    Orthogroups_UnassignedGenes.tsv:记录了 MCL 中 未成功聚类(直系同源组中基因数 >= 1)的离散基因。
    Orthogroups.GeneCount.tsv:记录了每个 Orthogroup 中基因在物种间的分布情况,可以用于分析同源基因在物种间的收缩和扩张。
    Orthogroups_SingleCopyOrthologues.txt:记录了 单拷贝直系同源组。
  2. Orthogroup_Sequences 文件夹
    均为 FASTA 格式文件,记录了每个 Orthogroup 所包含的基因 / 蛋白的序列信息
  3. Single_Copy_Orthologue_Sequences 文件夹
    均为 FASTA 格式文件,记录了每个单拷贝 Orthogroup 所包含的基因 / 蛋白的序列信息
  4. Phylogenetic_Hierarchical_Orthogroups 文件夹
    由于复制本在进化之间存在突变速率的异质性,所以在研究同源基因时更希望所研究的同源基因来自相同的复制本。Hierarchical Orthogroups(HOG)就是为这一目的而设立的概念,HOG 指由最近共同祖先中某一基因进化而来的一组直系同源基因,进化过程中不涉及基因复制,所以 HOG 中不包含旁系同源。如下图中红框所标注的 Orthogroup。
    OrthoFinder 以物种树中的节点(LCA)为标准,寻找有根基因树内由 LCA 中基因进化来的 HOG,对原先 MCL 算法得到 orthogroup 进行细分。输出文件 N0.tsv,N1.txt,N2.tsv,… 分别指以物种树 N0,N1,N2,… 节点为标准推断出的 HOG。
  5. MultipleSequenceAlignments 文件夹
    此文件夹仅在 -M msa 模式下输出,均为 FASTA 格式文件。
    记录了每个 orthogroup 中序列间的多序列比对结果。
    记录了程序通过 CMSA 算法过滤后的 orthogroup 中各序列串联后的多序列比对结果,同时比对结果中空位数 > 50% 的列已被删除。
  6. Species_Tree 文件夹
    SpeciesTree_rooted.txt:STAG、STRIDE 算法计算出的有根物种树结构。
    SpeciesTree_rooted_node_labels.txt:相比上树在节点处具有标签(N 0 , N 1 , . . . , N m ),让后续的分析中可以方便的指定物种树节点。
    Orthogroups_for_concatenated_alignment.txt:仅在 -M msa 模式下输出,列出了所有串联起来用于推断物种树的 orthogroup ID。
  7. Gene_Trees 文件夹
    记录了每个 orthogroup(gene_num >= 4)的有根基因树结构。
  8. Gene_Duplication_Events 文件夹
    注意!OrthoFinder 只统计记录支持值(Support) >= 50% 的的复制事件。支持值是指复制后两个基因副本未被丢失的比例,Support >= 50% 表示复制后至少有一半基因在演化中保留了下来。
    Duplications.tsv:记录了程序推测出的所有基因复制事件的信息。其中 Species Tree Node 表示基因复制事件发生时所对应的物种树节点(即复制是在该物种内发生的);Gene tree node 表示基因复制事件发生时所对应的基因树节点与基因复制事件对应的节点;Support 表示复制后两个基因副本未被丢失的比例;Type 中 Terminal 表示重复发生在物种树的末端分支上,Non-Terminal 表示重复发生在物种树的内部分支上,被多个物种共享;Genes 1、Genes 2 为基因列表,其中 Genes 1 表示来自复制后基因的一个副本;Genes 2 表示来自复制后基因的另一个副本。
    SpeciesTree_Gene_Duplications_0.5_Support.txt:记录了物种树每个节点、分枝上包含的基因复制事件的总和,格式为节点或物种名 + 数字(基因复制事件数量)。
  9. Orthologues 文件夹
    以物种为单位,记录了每个物种与其他物种间的直系同源基因。
  10. Comparative_Genomics_Statistics 文件夹
    Statistics_Overall.tsv:记录了有关 orthogroup 的常规统计信息。
    Statistics_PerSpecies.tsv:以物种为单位,记录了有关 orthogroup 的常规统计信息。
    Orthogroups_SpeciesOverlaps.tsv:记录了每个物种对之间共享的 orthogroup 数。
    Duplications_per_Species_Tree_Node.tsv:记录了物种树中每个节点、物种中发生基因重复事件的数量。
    Duplications_per_Orthogroup.tsv:记录了每个 orthogroup 中推断出的基因重复事件数量。
    OrthologuesStats _ *:记录了每对物种之间一对一、一对多和多对多关系的直向同源物数量。
  11. WorkingDirectory 文件夹
    OrthoFinder 运行所需的必须中间文件, 如 DIAMOND 比对结果,STAG 输出的无根物种树等。
<think>好的,我需要帮用户找到推荐的生信数据分析课程或Linux相关的课程。用户之前已经提供了引用内容中的课程链接,特别是引用[3]里的百度网盘资源。现在用户明确表示需要这些推荐,可能还对之前的回答中的环境配置工具安装有需求。 首先,我要确认用户的需求是课程推荐,而不是技术步骤。用户可能是在学习生信数据分析过程中需要系统的学习材料,特别是结合Linux环境的课程。引用[3]里已经有很多课程链接,涵盖了Linux入门、Python、R语言、基因组技术等,这些都是相关的。 接下来,我需要整理这些课程,按类别分类,方便用户查看。同时,用户可能希望知道哪些课程适合入门,哪些是进阶内容。比如,Linux入门Python/R编程是基础,而基因组组装、注释等则是更专业的领域。 另外,用户之前的问题是关于在Linux下分析生信数据,所以推荐课程时要结合Linux在生信中的应用,比如工具使用、数据分析流程等。引用[1]提到Linux的开源软件生态,如BWA、SAMtools,这些可能在课程中有涉及。 需要注意引用[3]中的链接是否有效,但用户已经说明这些引用仅供参考,可能链接已过期,所以需要提醒用户注意。同时,可以建议用户通过其他平台如Coursera、edX寻找补充课程,尤其是国际认可的课程,比如约翰霍普金斯大学的生信专项。 还要考虑用户可能对实践操作的需求,推荐包含实战项目的课程,比如GitHub上的开源教程,或者提供实际数据分析的课程,如《Bioinformatics Algorithms》《Data Science in Genomics》。 最后,确保回答结构清晰,分点列出课程推荐,并附上来源说明,同时加入相关问题引导用户进一步探索。需要遵循用户之前的格式要求,如使用中文、正确引用标识等。</think>##### **推荐的生物信息学与Linux数据分析课程** 以下课程结合了**Linux系统操作**与**生物信息数据分析**的核心技能,覆盖基础到进阶内容,部分课程资料来自引用[^3]的网盘资源(需注意部分链接可能已失效,建议通过官方渠道获取更新版本): --- ###### **一、基础入门课程** 1. **Linux操作系统入门** - **课程内容**:文件系统操作、Shell脚本编写、权限管理、软件编译安装(如手动安装SAMtools[^1]) - **推荐资源**: - 引用[^3]中的**Linux入门**课程(提取码:czup) - *《鸟哥的Linux私房菜》*(经典教材,适合系统学习) - **学习目标**:掌握`grep/sed/awk`文本处理、环境变量配置[^1]、批量任务管理(如GNU Parallel[^3]) 2. **Python/R编程与生信应用** - **课程亮点**: - 引用[^3]中的**Python编程**(提取码:r4hv)与**R语言绘图**课程(提取码:ifuc) - *《Python for Bioinformatics》*(实战案例:序列处理、数据可视化) - **实践项目**: ```python # 示例:使用Biopython解析FASTA文件 from Bio import SeqIO for record in SeqIO.parse("genome.fasta", "fasta"): print(f"ID: {record.id}, Length: {len(record.seq)}") ``` --- ###### **二、生信核心技能课程** 3. **基因组学技术全流程** - **课程模块**(引用[^3]中的资源): - **动植物基因组组装**(提取码:dii3) - **微生物比较基因组与建树实操**(提取码:dqy3) - **关键技术**: - 使用`Bowtie2/BWA`进行序列比对[^1] - 利用`OrthoFinder`分析基因家族进化(命令行示例见引用[^2]) 4. **高通量数据分析实战** - **推荐课程**: - **三代重测序技术**(引用[^3],提取码:injh) - *《Bioinformatics Data Skills》*(涵盖NGS数据格式、QC工具使用) - **工具实践**: ```bash # 使用FastQC+MultiQC批量生成质控报告 fastqc *.fastq multiqc . -o qc_report ``` --- ###### **三、进阶与专项课程** 5. **云平台与大规模计算** - **内容**:AWS/腾讯云HPC环境部署、Docker/Singularity容器化分析[^4] - **推荐资源**: - *《Bioinformatics in the Cloud》*(O’Reilly出版社) 6. **算法与统计学专项** - **Coursera课程**: - *《Bioinformatics Algorithms》*(加州大学圣地亚哥分校) - *《Statistics for Genomic Data Science》*(约翰霍普金斯大学) --- ###### **四、免费开源学习平台** 1. **GitHub生信项目** - [Awesome Bioinformatics](https://github.com/danielecook/Awesome-Bioinformatics)(工具与教程汇总) - [Rosalind](https://rosalind.info/)(算法编程练习平台) 2. **在线文档与社区** - **Biostars**(生信问题解答社区) - **Galaxy Project**(可视化生信分析平台教程) --- ##### **注意事项** - **链接有效性**:部分百度网盘课程可能因时效性需重新验证,建议通过**课程官网**或**Coursera/edX**获取更新版本。 - **实践优先**:结合本地或云服务器完成实际数据分析(如引用[^1]中的`BWA/SAMtools`流程)。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值