IQ-Tree

2020-12-17 本文已影响0人 MLD_TRNA

IQ-Tree是2014年推出的一款基于最大似然法（ML）的建树软件，具有准确、快速、灵活等特点，特别适用于大数据的系统发育分析。该软件的具体功能详见官方网站介绍（http://www.qtree.org/）。

本地版下载地址：http://www.iqtree.org/#downloa

在线服务器地址：http://iqtree.cibiv.univie.ac.at/

（1）数据准备：

IQ-TREE支持多种序列数据格式，其中Phylip为该软件首选，但也可以直接读取FASTA，程序会自动转为Phylip格式，省去格式转换的步骤，对于新手非常方便。

（2）模型选择：

在应用ML法重建系统发育树前，需要进行核苷酸替换模型的选择，IQ-TREE整合了ModelFinder这个模块，可以快速获得目的数据的最佳进化模型，推荐使用其替换jModelTest等软件。

MrMTGUI（MrModelTest/ModelTest）配置复杂，不易操作；jModelTest 支持界面操作，但是系统资源杀手。在大数据面前，这两款软件只能望洋兴叹，因而IQ-Tree软件中的ModelFinder自然成了首选，最大的特点就是快、很快、超级快，重点的内容说三遍。除外，它支持的数据类型除了核苷酸（含Codon）和氨基酸外，还能支持离散数据（包括二进制、形态数据等）。

IQ-tree可以根据分析目的，通过不同命令操作，本例仅演示只选择模型不建树，其命令格式为

iqtree -s seqname.phy -m MF -nt AUTO

注：

这里的-s 参数对应的是序列文件；

-m 参数默认使用ModelFinder选模型，也可使用jModeltest或ProtTest，只需可将MF改为TEST即可；

-nt对应的是CPU线程数，根据硬件配置修改（如：4线程，将AUTO改为4即可），也可以使用AUTO变成自动

如果只针对Mrbayes/Raxml计算最适模型，可以在-m MF 后添加一个 -mset参数，参考格式如下：

-mset JC,K80,SYM,F81,HKY,GTR -mrate E,G,I,G+I（用于Mrbayes）

（Raindy注：上述结果等同于-mset mrbaye)

-mset GTR -mrate E,G,I（用于raxML）

（Raindy注：上述结果等同于 -mset raxml）

程序运行完成后，会在序列所在目录生成多个文件，可以打开其中日志log文件，ModelFinder会根据不同标准推荐最佳模型，而如下图，基于AIC标准，示例数据的最佳模型为GTR+R4模型；而基于BIC标准（ModelFinder 默认推荐），示例数据的最佳模型为TIM3+R4。如果使用BEAST或Mrbayes等软件建树，需要加-mset 参数重新计算。

赤池信息准则（Akaike Information Criterion，AIC）

贝叶斯信息准则（Bayesian Information Criterion，BIC）

原理参考：

https://blog.csdn.net/baidu_38172402/article/details/89075582

https://blog.csdn.net/xianlingmao/article/details/7891277

https://blog.csdn.net/lfdanding/article/details/50732762

AIC是衡量统计模型拟合优良性的一种标准，由日本统计学家赤池弘次在1974年提出，它建立在熵的概念上，提供了权衡估计模型复杂度和拟合数据优良性的标准。训练模型时，增加参数数量，也就是增加模型复杂度，会增大似然函数，但是也会导致过拟合现象，针对该问题，AIC和BIC均引入了与模型参数个数相关的惩罚项，BIC的惩罚项比AIC的大，考虑了样本数量，样本数量过多时，可有效防止模型精度过高造成的模型复杂度过高。

公式

AIC=2k−2ln(L)

BIC=kln(n)−2ln(L)

k为模型参数个数，n为位点数量，L为似然函数。

（3）ML树重建：

Windows版

IQ-TREE建树前，需要先调用出Window的命令行界面（Win键+R回车后，输入cmd再次回车即可显示，下图），示例的Windows版IQ-TREE主程序存放路径在D:\BiosoftslQtreebin，故而在CMD界面下，先输入D：切换到D盘，然后通过cd命令逐级进入IQ-TREE的子目录bin内。因版本不同，主程序名称路有不同。

命令格式：

igtree.exe（或/iqtree-omp）-s./NLV.fas-m GTR+R6-bb 1000-alrt 1000-nt AUTO

#注意：与Windows版不同的是mac版主程序没有扩展名

Mac版

IQ-TREE建树前，同样需要先调用终端（上图），可在Spotlight搜索栏中输入terminal.app回车，然后可以将IQ-TREE的主程序iqtree-omp直接拖入终端运行窗口内，根据命令格式依次输入参数和对应的内容。

参数注释：

/iqtree-omp（mac版）或/iqtree.exe（Windows版）

iQ TREE程序的路径（在IQ-TREE的bin子目录）

-s./NLV-sample.fas

参数-s即sequence，其之后为序列（含路径），可以将序列直接拖入命令运行窗口；

-m GTR+R6

参数-m即model，其后为选定的最佳模型；

-bb（或-b）1000

参数-bb即ultrafast bootstrap approximation（UFBoot），其后为重复抽样次数，默认值1000。大数据时推荐使用-bb参数，建议重复抽样次数调整为5000或10000；如果小数据推荐使用-b参数，其对应为常规算法的bootstrap；

-alrt 1000

参数-alrt非必须，即是否启用SH-aLRT检验。如果不启用该检验，可以直接删除，其后同样为重复抽样次数

-nt AUTO

参数-nt 即Number of Threads，用于IQ-TREE分析的线程数，可以用AUTO参数让系统自已分配，也可以自己指定

#Raindy注：

（1）如果需要指定一个outgroup，可以在模型参数之后，添加一个-0参数用以指定某一条序列为outgroup，如：-o NC 018093 SPVG即将示例中的名称为NC 018093 SPVG指定为outgroup；

（2）ultrafast bootstrap approximation（UFBoot）为IQ-TREE引入的一个算法，适用于大数据分析，但应用此法可能会导致计算结果偏高，需要注意。

（4）结果解读：

IQ-TREE建树完成，会在序列目录下生成多个文件，主要包括程序运行日志xx.log、ML树文件

（含有（UFBoot或BP/SH-aLRT评估分支置信度）和一致树文件xx.contree，可以用Figtree进行查看，将Nodel Label标签下拉菜单选择label（打开树文件前Figtree会提示，需要给树的节点/分枝指定一个名称，可以使用label作为默认名称）

.dat与.phy是我对齐序列文件以及分区文件。

.best_scheme与.best_scheme.nex里面是每个分区所匹配的模型。如果是iqtree不分区时不会有这个文件产生。

会有两个树文件一个是.contree一个是.treefile。

.treefile对应的是ML树。

.contree是一个由1000bootstrap trees为引导树生成的共有树。

计算AIC&BIC的数据在.iqtree里面。

作者：土雕

链接：https://www.jianshu.com/p/93d78b84b7cd

来源：简书

著作权归作者所有。商业转载请联系作者获得授权，非商业转载请注明出处。

下图为示例数据生成的ML树（带SH-aLRT检验）的NLV.fas.treefile文件在Figtree中的显示结果：

上图的NLV.fas.treefile如需进一步美化，推荐使用余光创博士的ggtree，可以>70 SH-aLRT且>95 UFboot的分支用指定的符号表示出来，简单三行代码搞定，参考R代码如下：

> require（ggtree）

>x= read.tree（file.choose（））

> ggtree（x）+ geom-nodepoint（aes（subset = sub（"/.*，"，label）> 70 | sub（"./"，"，label）>95）

初步导出效果如下图所示，实名圆圈表示> 70 SH-aLRT且> 95 UFboot的分支或节点：

下图为示例数据生成的一致树NLV.fas.contree文件经美化后的显示效果：

Figurc 1.Mid-point rooted phylogenetic tree based on the codon-aligned nucleotide sequences of the polyproteins of members of the family Potyviridae.

以上应用IQ-TREE建ML树的方法描述可参考Gao et al，2018，The first complete genome sequence of narcissus latent virus from Narcissus...

延伸阅读：

.Nguyen L-T，Schmidt HA，von Haeseler A，Minh BQ（2014）IQ-TREE：A fast and effectivestochastic algorithm for estimating maximum likelihood phylogenies.Molecular biology and evolution 32：268-742.

Kalyaanamoorthy S，Minh BQ，Wong TKF，von Haeseler A，Jermin LS（2017）ModelFinderfast model selection for accurate phylogenetic estimates.Nature Methods 14：587-589.

3.Hoang DT，Chernomor O，von Haeseler A，Minh BQ，Vinh LS（2018）UFBoot2：Improving the ultrafast bootstrap approximation.Molecular biology and evolution 35：518-522.

实例

1. 待建序列：NCBI上下载的63个16s参比序列和486个分离株的序列，共549个。

2. 使用jmodel进行了模型选择，88种模型可供选择。在i7 6700，8G的台式机上跑了7个多小时，计算完后统计AIC和BIC的时候卡死了，跑了两遍都这样，不知道怎么回事，最后放弃使用这个软件了。

3. 使用IQ-TREE进行模型选择和ML建树，288种模型可供选择。在i5 2450M，8G笔记本的VMware虚拟机（2个线程，4G内存）上执行。

#使用MUSCLE对549个序列对齐

conda install muscle

muscle -in 16s.fas -out 16s_muscle.fas

#使用BMGE对序列剪齐

conda install bmge

java -jar BMGE.jar -i 16s_muscle.fas' -t DNA -of 16s_muscle_trim.fas -m DNAPAM250:4 –g 0.5

#使用ModelFinder寻找最优模型

conda install iqtree

iqtree -s 16s_muscle_trim.fas -m MF -nt 2

得到最佳模型TIM3+F+R4

#使用UFBoot2建树

iqtree -s 16s_muscle_trim.fas -m TIM3+F+R4 -bb 1000 -nt AUTO

4. Figtree可视化树文件16s_muscle_trim.contree

16s_muscle_trim.contree: the consensus tree with assigned branch supports where

branch lengths are optimized on the original alignment.

参考基于ML法重建系统发育树-IQ-TREE篇

http://www.360doc.com/content/18/0125/13/45962007_724978365.shtml

模型选择准则:利用IQtree结果计算AIC&BIC

https://www.jianshu.com/p/93d78b84b7cd

使用IQ-TREE构建系统进化树

https://www.jianshu.com/p/f830282866cd

IQ-Tree

猜你喜欢

热点阅读