OrthoFinder寻找同源基因
OrthoFinder可快速进行直系同源基因的搜索,并进行建树
1、 安装
conda create -n orthofinder -c bioconda orthofinder=2.2.7
2、简单使用
减压软件后,在目录有测试数据可是进行测试,ExampleData文件中包含蛋白序列(fa)作为输入。
orthofinder -f ExampleData -S mmseqs
# -f 指定文件夹
# -S 指定序列搜索程序,有blast(默认), mmseqs, blast_gz, diamond可用
# -t 线程数 (默认值为16)
# -a 序列分析使用的线程数 (默认值为1)
# -M 基因树推断方法(默认为dendroblast)可选:dendroblast ,msa
# -A 多序列联配方式,该选项仅当 -M msa 选项时才有效(默认为mafft)可选:muscle, mafft
# -T 建树方式,该选项仅当 -M msa 选项时才有效 (默认为fasttree)可选:iqtree, raxml-ng, fasttree, raxml
# -s 输入特定的根物种树
如果想更改建树中的bootstrap,可对config.json文件进行修改,如果用conda安装,则在其bin目录下。
如要在iqtree建树过程中增加bootstrap, 则在iqtree的"cmd_line":中添加
-bb 1000 (iqtree的超快bootstrap)或 -b 1000(传统bootstrap)
3、结果查看
结果完成后,在ExampleData 下得到一个Results_Dec16文件夹,后面为运行日期
打开Orthologues_Dec16文件夹后
可以看到
SpeciesTree_rooted.txt 从所有包含STAG支持的直系同源组推断的STAG物种树
SpeciesTree_rooted_node_labels.txt 同上,只不过多了一个标签信息,用于解释基因重复数据。
OrthoFinder默认使用DendroBLAST发育树,也就是根据序列相似度推断进化关系。这是作者推荐的方法,在损失部分准确性的前提下提高了运算效率。当然你可以用-M msa从多序列比对的基础上进行基因树构建。如果你先用了默认的DendroBLAST,想测试下传统的MSA方法,那么也不需要重头运行,因为有一个-b参数可以在复用之前的比对结果。在物种发育树的推断上,OrthoFinder使用STAG算法,利用所有进行构建系统发育树,而非单拷贝基因。此外当使用MSA方法进行系统发育树推断时,OrthoFinder为了保证有足够多的基因(大于100)用于分析,除了使用单拷贝基因外,还会挑选大部分是单拷贝基因的直系同源组。这些直系同源组的基因前后相连,用空缺字符表示缺失的基因,如果某一列存在多余50%的空缺字符,那么该列被剔除。最后基于用户指定的建树软件进行系统发育树构建。结果在"WorkingDirectory/SpeciesTree_unrooted.txt" 使用STRIDE算法从无根树中推断出有根树, 结果就是"SpeciesTree_rooted.txt".