生信工具机器学习算法单核苷酸多态性(SNP)

IQ-TREE的使用 - 超快速用极大似然法构建进化树

2019-09-27  本文已影响0人  生信石头

写在前面

我知道IQ-tree已经有很长一段时间了。不过我一直并没有使用它。主要原因是,常用的快速构建ML树的软件是FastTree,如果要求准确,我会在服务器上使用RaxML。所以是用不到。不过,使用IQ-tree可能最大的好处是,他支持直接估算替代模型。确实会省事许多。由于最近相对有多一点时间,那么我就查阅并记录一下IQ-tree的文档。

程序下载位置

IQ-tree官方现在似乎只提供多线程版本....

http://www.iqtree.org/#download

如果你赶时间,那么直接翻到最后

简单构建进化树

iqtree -s example.phy

其中-s参数跟的是输入的多序列比对结果。运行这个命令会产生两个输出文件
example.phy.iqtree记录相对具体的进化树构建信息。
example.phy.treefile记录构建成的进化树的newick文本,这个应该是最重要的输出文件
example.phy.log主要用于给软件作者debug。

作者在文档里提到

从版本1.5.4开始,默认自动估算最优替代模型

这是一个非常机智的操作....

IQ-tree运行过程会保存每一步成功运行的结果,或者说他是运行中断并从断点重新开始的。这个对于大数据集是有很大好处的。不过有时候,我们就是想从头开始,那么需要加上参数-redo

iqtree -s example.phy -redo

默认情况下IQ-tree的输出文件名字以输入的alignment文件为前缀。我们可以对其进行修改,使用-pre参数

iqtree -s example.phy -pre myprefix

不过事实上,我觉得完全没必要。除非你要不断的调整建树的参数。

选择合适的替代模型

IQ-tree支持多种不同输入数据的替代模型选择,包括

通过设置参数-m MFP使其自动测试并选择最优替代模型

iqtree -s example.phy -m MFP

这个参数其实已经可以不用给了,上述说过,会默认执行。
一旦执行最优替代模型的预测,那么就会多输出一个文件,
example.phy.model记录了所有模型的似然信息。
事实上,最优替代模型的信息会记录 example.phy.iqtree中。如果是完全相同的多序列比对结果,那么最优替代模型也是相同的。如果并没有改变过,那么完全可以指定替代模型,比如已知最优替代模型为TIM2+I+G。那么可以执行下述命令

iqtree -s example.phy -m TIM2+I+G

当然,有时候,你只是想看看最优替代模型是啥,而不想构建进化树,毕竟后者相对耗时。那么可以执行

iqtree -s example.phy -m MF

如果计算资源允许,那么最好的方式是增加参数-mtree,这样会检查所有可用模型

iqtree -s example.phy -m MF -mtree

如果你的输入数据是SNP数据,那么需要加上+ASC

iqtree -s SNP_data.phy -m MFP+ASC

当然,基于传言和个人经验,在SNP数据上,似乎NJ法的表现就是由于ML法。

使用超快bootstrap法评估分支支持度

真实的进化信息只有一个,而我们总是拿着有限的序列信息,希望去获得他。能否获得他,是一个问题。而我们使用的序列信息是否能真实且稳定地反应一个进化信息,那么是另外一个事情。bootstrap法常用的,尤其是ML法构建进化树上,分支可靠性检验方法。但是这个计算逻辑最大的问题在于,抽样重新跑,抽样再重新跑,不断重复,直到收敛或者是到指定的比如1000次。计算量大,耗时长。IQ-tree的作者团队在前述提出了一个快速的BS方法,最后整合到IQ-tree中。使用的方式是

iqtree -s example.phy -m TIM2+I+G -bb 1000

注意到:

  1. -m TIM2+I+G 是因为已经指定了替代模型
  2. -bb 1000 指定了要用快速BS法做1000次

在这些参数下,输出文件example.phy.iqtree中会增加一个MAXIMUM LIKELIHOOD TREE部分,其中记录了具体BS结果。对应的newick文本则可以在example.phy.treefile中找到。
此外,会增加三个输出文件

  1. example.phy.contree记录了一致树,我个人认为这个用处不到,事实上,一致树我觉得主要是好看....
  2. example.phy.splits....
  3. example.phy.splits.nex... 与第2个文件具体信息类同

作者提醒到

快速BS法的具体解读与常规的BS法有不同,用户需要知晓。

我个人事实上在很早的时候,其实试过IQ-tree,但是两三套数据下来,自认为其表现不如RaxML,于是没有使用。作者在文档中提到,模型冲突的情况下,快速BS会高估BS值,推荐加上参数-bnni。于是,命令是

iqtree -s example.phy -m TIM2+I+G -bb 1000 -bnni

当然,作者仍然提供正常的BS参数,也就是不要-bb,而只用-b。或许我们不赶时间的情况下,可以使用

iqtree -s example.phy -m TIM2+I+G -b 100

此外,IQ-tree还支持其他的支持度估算方法
SH-like

iqtree -s example.phy -m TIM2+I+G -alrt 1000

你甚至可以同时进行两种分支支持度的计算,

iqtree -s example.phy -m TIM2+I+G -alrt 1000 -bb 1000

嗯,作为一个基本不怎么做进化分析的,我似乎觉得有BS就足够了,毕竟这个似乎才是最多人care的。

使用多线程

Emm... 我以为iqtree本身是直接支持多线程,但是似乎从文档来看,是需要另外的一个iqtree版本,iqtree-omp

iqtree -omp -s example.phy -m TIM2+I+G -nt 2

注意到,只有在长的比对结果下,使用多线程才会更有效。最好的方式是让IQtree自行定夺

iqtree -omp -s example.phy -m TIM2+I+G -nt AUTO

不过目前应该是官方就有编译的支持多线程的。

写在后面

总结,使用IQ-tree构建进化树的一步法,可能是

iqtree -s example.phy -m MFP -bb 1000  -bnni  -redo

最后查看结果文件example.phy.treefile
如果你担心快速BS效果不好,那么考虑使用

iqtree -s example.phy -m MFP -b 1000  -redo

如果你的序列足够长,那么文档建议增加-cmax,默认是10,这主要是计算资源的问题。

iqtree -s example.phy -m MFP -bb 1000  -bnni -cmax 15  -redo

当然,很多时候是需要增加多线程支持参数,如下

iqtree -s example.phy -m MFP -bb 1000  -bnni  -nt AUTO  -cmax 15  -redo 
# 或者 
iqtree -s example.phy -m MFP -b 1000  -nt AUTO  -cmax 15  -redo 
上一篇下一篇

猜你喜欢

热点阅读