IQ-TREE的使用 - 超快速用极大似然法构建进化树
写在前面
我知道IQ-tree已经有很长一段时间了。不过我一直并没有使用它。主要原因是,常用的快速构建ML树的软件是FastTree,如果要求准确,我会在服务器上使用RaxML。所以是用不到。不过,使用IQ-tree可能最大的好处是,他支持直接估算替代模型。确实会省事许多。由于最近相对有多一点时间,那么我就查阅并记录一下IQ-tree的文档。
程序下载位置
IQ-tree官方现在似乎只提供多线程版本....
http://www.iqtree.org/#download
如果你赶时间,那么直接翻到最后。
简单构建进化树
iqtree -s example.phy
其中-s
参数跟的是输入的多序列比对结果。运行这个命令会产生两个输出文件
example.phy.iqtree
记录相对具体的进化树构建信息。
example.phy.treefile
记录构建成的进化树的newick文本,这个应该是最重要的输出文件
example.phy.log
主要用于给软件作者debug。
作者在文档里提到
从版本1.5.4开始,默认自动估算最优替代模型
这是一个非常机智的操作....
IQ-tree运行过程会保存每一步成功运行的结果,或者说他是运行中断并从断点重新开始的。这个对于大数据集是有很大好处的。不过有时候,我们就是想从头开始,那么需要加上参数-redo
。
iqtree -s example.phy -redo
默认情况下IQ-tree的输出文件名字以输入的alignment文件为前缀。我们可以对其进行修改,使用-pre
参数
iqtree -s example.phy -pre myprefix
不过事实上,我觉得完全没必要。除非你要不断的调整建树的参数。
选择合适的替代模型
IQ-tree支持多种不同输入数据的替代模型选择,包括
- DNA
- protein
- codon
- binary
- morphological
通过设置参数-m MFP
使其自动测试并选择最优替代模型
iqtree -s example.phy -m MFP
这个参数其实已经可以不用给了,上述说过,会默认执行。
一旦执行最优替代模型的预测,那么就会多输出一个文件,
example.phy.model
记录了所有模型的似然信息。
事实上,最优替代模型的信息会记录 example.phy.iqtree
中。如果是完全相同的多序列比对结果,那么最优替代模型也是相同的。如果并没有改变过,那么完全可以指定替代模型,比如已知最优替代模型为TIM2+I+G
。那么可以执行下述命令
iqtree -s example.phy -m TIM2+I+G
当然,有时候,你只是想看看最优替代模型是啥,而不想构建进化树,毕竟后者相对耗时。那么可以执行
iqtree -s example.phy -m MF
如果计算资源允许,那么最好的方式是增加参数-mtree
,这样会检查所有可用模型
iqtree -s example.phy -m MF -mtree
如果你的输入数据是SNP数据,那么需要加上+ASC
iqtree -s SNP_data.phy -m MFP+ASC
当然,基于传言和个人经验,在SNP数据上,似乎NJ法的表现就是由于ML法。
使用超快bootstrap法评估分支支持度
真实的进化信息只有一个,而我们总是拿着有限的序列信息,希望去获得他。能否获得他,是一个问题。而我们使用的序列信息是否能真实且稳定地反应一个进化信息,那么是另外一个事情。bootstrap法常用的,尤其是ML法构建进化树上,分支可靠性检验方法。但是这个计算逻辑最大的问题在于,抽样重新跑,抽样再重新跑,不断重复,直到收敛或者是到指定的比如1000次。计算量大,耗时长。IQ-tree的作者团队在前述提出了一个快速的BS方法,最后整合到IQ-tree中。使用的方式是
iqtree -s example.phy -m TIM2+I+G -bb 1000
注意到:
-
-m TIM2+I+G
是因为已经指定了替代模型 -
-bb 1000
指定了要用快速BS法做1000次
在这些参数下,输出文件example.phy.iqtree
中会增加一个MAXIMUM LIKELIHOOD TREE
部分,其中记录了具体BS结果。对应的newick文本则可以在example.phy.treefile
中找到。
此外,会增加三个输出文件
-
example.phy.contree
记录了一致树,我个人认为这个用处不到,事实上,一致树我觉得主要是好看.... -
example.phy.splits
.... -
example.phy.splits.nex
... 与第2个文件具体信息类同
作者提醒到
快速BS法的具体解读与常规的BS法有不同,用户需要知晓。
我个人事实上在很早的时候,其实试过IQ-tree,但是两三套数据下来,自认为其表现不如RaxML,于是没有使用。作者在文档中提到,模型冲突的情况下,快速BS会高估BS值,推荐加上参数-bnni
。于是,命令是
iqtree -s example.phy -m TIM2+I+G -bb 1000 -bnni
当然,作者仍然提供正常的BS参数,也就是不要-bb
,而只用-b
。或许我们不赶时间的情况下,可以使用
iqtree -s example.phy -m TIM2+I+G -b 100
此外,IQ-tree还支持其他的支持度估算方法
SH-like
iqtree -s example.phy -m TIM2+I+G -alrt 1000
你甚至可以同时进行两种分支支持度的计算,
iqtree -s example.phy -m TIM2+I+G -alrt 1000 -bb 1000
嗯,作为一个基本不怎么做进化分析的,我似乎觉得有BS就足够了,毕竟这个似乎才是最多人care的。
使用多线程
Emm... 我以为iqtree本身是直接支持多线程,但是似乎从文档来看,是需要另外的一个iqtree版本,iqtree-omp
。
iqtree -omp -s example.phy -m TIM2+I+G -nt 2
注意到,只有在长的比对结果下,使用多线程才会更有效。最好的方式是让IQtree自行定夺
iqtree -omp -s example.phy -m TIM2+I+G -nt AUTO
不过目前应该是官方就有编译的支持多线程的。
写在后面
总结,使用IQ-tree构建进化树的一步法,可能是
iqtree -s example.phy -m MFP -bb 1000 -bnni -redo
最后查看结果文件example.phy.treefile
。
如果你担心快速BS效果不好,那么考虑使用
iqtree -s example.phy -m MFP -b 1000 -redo
如果你的序列足够长,那么文档建议增加-cmax,默认是10,这主要是计算资源的问题。
iqtree -s example.phy -m MFP -bb 1000 -bnni -cmax 15 -redo
当然,很多时候是需要增加多线程支持参数,如下
iqtree -s example.phy -m MFP -bb 1000 -bnni -nt AUTO -cmax 15 -redo
# 或者
iqtree -s example.phy -m MFP -b 1000 -nt AUTO -cmax 15 -redo