比较基因组学比较基因组学OrthoFinder 基因扩张与收缩分析

Othofinder结果(二)

2021-04-20  本文已影响0人  MLD_TRNA

OrthoFinder 输出文件说明

OrthoFinder 的标准输出包括:直系同源组,直系同源基因,有根基因树,解析基因树,无根物种树、有根物种树,基因重复事件以及相关的统计数据。
1. Orthogroups 文件夹

Orthogroups.tsv、Orthogroups.txt:记录了 MCL 中 成功聚类(直系同源组中基因数 >= 2)的每个 Orthogroup 所包含的基因。
Orthogroups_UnassignedGenes.tsv:记录了 MCL 中 未成功聚类(直系同源组中基因数 >= 1)的离散基因。
Orthogroups.GeneCount.tsv:记录了每个 Orthogroup 中基因在物种间的分布情况,可以用于分析同源基因在物种间的收缩和扩张。
Orthogroups_SingleCopyOrthologues.txt:记录了 单拷贝直系同源组。

2. Orthogroup_Sequences 文件夹

均为 FASTA 格式文件,记录了每个 Orthogroup 所包含的基因 / 蛋白的序列信息

3. Single_Copy_Orthologue_Sequences 文件夹

均为 FASTA 格式文件,记录了每个单拷贝 Orthogroup 所包含的基因 / 蛋白的序列信息

4. Phylogenetic_Hierarchical_Orthogroups 文件夹

由于复制本在进化之间存在突变速率的异质性,所以在研究同源基因时更希望所研究的同源基因来自相同的复制本。Hierarchical Orthogroups(HOG)就是为这一目的而设立的概念,HOG 指由最近共同祖先中某一基因进化而来的一组直系同源基因,进化过程中不涉及基因复制,所以 HOG 中不包含旁系同源。如下图中红框所标注的 Orthogroup。

图片.png

OrthoFinder 以物种树中的节点(LCA)为标准,寻找有根基因树内由 LCA 中基因进化来的 HOG,对原先 MCL 算法得到 orthogroup 进行细分。输出文件 N0.tsv,N1.txt,N2.tsv,… 分别指以物种树 N0,N1,N2,… 节点为标准推断出的 HOG。

5. MultipleSequenceAlignments 文件夹

此文件夹仅在 -M msa 模式下输出,均为 FASTA 格式文件。
记录了每个 orthogroup 中序列间的多序列比对结果。
记录了程序通过 CMSA 算法过滤后的 orthogroup 中各序列串联后的多序列比对结果,同时比对结果中空位数 > 50% 的列已被删除。

6. Species_Tree 文件夹

SpeciesTree_rooted.txt:STAG、STRIDE 算法计算出的有根物种树结构。
SpeciesTree_rooted_node_labels.txt:相比上树在节点处具有标签( N 0 , N 1 , . . . , N m N_0,N_1,...,N_m N0,N1,...,Nm),让后续的分析中可以方便的指定物种树节点。
Orthogroups_for_concatenated_alignment.txt:仅在 -M msa 模式下输出,列出了所有串联起来用于推断物种树的 orthogroup ID。

7. Gene_Trees 文件夹

记录了每个 orthogroup(gene_num >= 4)的有根基因树结构。

8. Gene_Duplication_Events 文件夹

注意!OrthoFinder 只统计记录支持值(Support) >= 50% 的的复制事件。支持值是指复制后两个基因副本未被丢失的比例,Support >= 50% 表示复制后至少有一半基因在演化中保留了下来。

Duplications.tsv:记录了程序推测出的所有基因复制事件的信息。其中 Species Tree Node 表示基因复制事件发生时所对应的物种树节点(即复制是在该物种内发生的);Gene tree node 表示基因复制事件发生时所对应的基因树节点与基因复制事件对应的节点;Support 表示复制后两个基因副本未被丢失的比例;Type 中 Terminal 表示重复发生在物种树的末端分支上,Non-Terminal 表示重复发生在物种树的内部分支上,被多个物种共享;Genes 1、Genes 2 为基因列表,其中 Genes 1 表示来自复制后基因的一个副本;Genes 2 表示来自复制后基因的另一个副本。
SpeciesTree_Gene_Duplications_0.5_Support.txt:记录了物种树每个节点、分枝上包含的基因复制事件的总和,格式为节点或物种名 + 数字(基因复制事件数量)。

9. Orthologues 文件夹

以物种为单位,记录了每个物种与其他物种间的直系同源基因。

10. Comparative_Genomics_Statistics 文件夹

Statistics_Overall.tsv:记录了有关 orthogroup 的常规统计信息。
Statistics_PerSpecies.tsv:以物种为单位,记录了有关 orthogroup 的常规统计信息。
Orthogroups_SpeciesOverlaps.tsv:记录了每个物种对之间共享的 orthogroup 数。
Duplications_per_Species_Tree_Node.tsv:记录了物种树中每个节点、物种中发生基因重复事件的数量。
Duplications_per_Orthogroup.tsv:记录了每个 orthogroup 中推断出的基因重复事件数量。
OrthologuesStats _ *:记录了每对物种之间一对一、一对多和多对多关系的直向同源物数量。

11. WorkingDirectory 文件夹

OrthoFinder 运行所需的必须中间文件, 如 DIAMOND 比对结果,STAG 输出的无根物种树等。

附录:
背景知识

直系同源基因(Orthologs、Orthologues):两物种间 由最近共同祖先(last common ancestor,LCA)中某 基因进化 而得到的一组基因。如图 B 所示,在 Human 和 Mouse 间 HuA 与 MoA 是直系同源基因,在 Human 和 Chicken 间 HuA 与 ChA1、ChA2 是直系同源基因。如果有物种 Cattle 且包含 CaA1 和 CaA2 基因,则在 Cattle 和 Chicken 间 CaA1、CaA2 与 ChA1、ChA2 是直系同源基因。所以直系同源基因存在一对一、一对多、多对多三种情况。其中一对多、多对多也称为 共直系同源基因(co-orthologs)。每两对物种间的直系同源基因汇总信息存放在 OrthoFinder 输出文件夹中的 Orthologues 文件夹中。
直系同源组(Orthogroup):各物种间 由最近共同祖先(LCA)中某基因 进化 而得到的一组基因。如图 A 中 HuA、MoA、ChA1、ChA2 都是由同一个基因进化得到,构成直系同源组。
旁系同源基因(Paralogs、Paralogues):同一物种内由基因复制而产生的一组基因。如图 C 中 Chicken 内 ChA1 与 ChA2 是一对旁系同源基因。

图片.png
基因复制(Gene Duplication):基因在物种进化过程中发生了复制。一般根据每个 orthogroup 的基因树结构,通过每次分枝后左、右枝间是否包含旁系同源基因来确定 基因复制 事件。
下图为自带案例中直系同源组 OG0000006 的有根基因树结构。首先分析 N16(node 16),其左右枝 N10、N11 是旁系同源(agal),说明 N16 发生了一次基因复制。不断递归可以发现,N19 后发生了 4 次基因复制。同理分析 N15,其中 N2、N4、N6 为旁系同源(geni),说明 N15 后发生了 2 次基因复制。结合 N15、N19,说明 N20 后发生了 6 次基因复制。由于 agal、geni 中基因与 N1 均不是旁系同源,所以 OG0000006 中总共发生了 6 次基因复制事件。
注意!OrthoFinder 只统计记录支持值(Support) >= 50% 的的复制事件。 支持值是指复制后两个基因副本未被丢失的比例,Support >= 50% 表示复制后至少有一半基因在演化中保留了下来。

DIAMOND

DIAMOND 是 2015 年nature methods 上发布的一款新序列比对软件,速度是 Blast的500x-20000x,并且具有相似的准确度。

DendroBLAST

DendroBLAST不依赖多序列比对结果 构建系统发育树,使用-M dendroblast调用,伪代码如下:

CMSA

CMSA 是将 单拷贝直系同源基因 序列在 串联起来进行多序列比对 的输出作为推断物种树的输入,使用 -M msa 调用。由于基因复制和丢失事件经常发生,所以 单拷贝直系同源组 是稀少的,尤其当分析大量物种时。作者对 CMSA 算法进行了优化:OrthoFinder 用单拷贝物种数超过总物种数 p% 的 orthogroup 推断物种树。如总物种数是 50,p% = 60%,所有 orthogroups 中单拷贝物种数超过 30 的 orthogroup 都将被用于推断物种树。伪代码如下:

STRIDE

参考文献:STRIDE: Species Tree Root Inference from Gene Duplication Events

STRIDE 利用 基因复制事件的不可逆性,推断基因树、物种树的生根位点。程序以无根物种树、无根基因树作为输入,具体算法如下:

上一篇下一篇

猜你喜欢

热点阅读