构建进化树常用方法:生物进化距离(NJ)、统计特征(ML)和离散
常用方法列表
方法名 | 方法名 |
---|---|
ML,Maximum likelihood | 最大似然法 |
NJ,Neighbor-Joining | 邻接法 |
MP,Maximum parsimony | 最大简约法 |
ME,Minimum Evolution | 最小进化法 |
Bayesian | 贝叶斯推断 |
UPGMA | 不常用 |
一篇综述(Hall BG. Mol Biol Evol 2005, 22(3):792-802)认为贝叶斯的方法最好,其次是ML,然后是MP
常用方法介绍
1、最大似然法(Maximum likelihood,ML):
1.1 依据:
这个方法最早是遗传学家以及统计学家罗纳德·费雪爵士在 1912 年至1922 年间开始使用的 。基本思想是:当从模型总体随机抽取n组样本观测值后,最合理的参数估计量应该使得从模型中抽取该n组样本观测值的概率最大,而不是像最小二乘估计法旨在得到使得模型能最好地拟合样本数据的参数估计量。
1.2 方法:
选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构作为最优树(所以分析时间比较长)
1.3 特点:
最大似然法具有很好的统计学理论基础,是一个比较成熟的统计学方法。选择合理的模型后,最大似然法可以推导出一个效果很好的进化树结果。但是对于相似度很低的序列,NJ往往出现Long-branch attraction(LBA,长枝吸引现象),有时严重干扰进化树的构建。
2、邻接法(Neighbor-Joining,NJ):
2.1 依据:
1987 由 Naruya Saitou, Masatoshi Neiin 提出的方法,该算法需要知道每一对之间的距离分类单元 (例如,物种或序列) 来使系统树的总距离达到最小,来形成树。。通过,就可以建立一个相应的拓扑树。
2.2 方法:
邻接连接将距离矩阵作为输入,指定每对分类群之间的距离。该算法以完全未解析的树开始,其拓扑对应于星型网络的拓扑,并迭代地将相邻点合并成新的点(相邻是指两个分类单位在某一无根分叉树中仅通过一个节点相连),直到树完全解析并且所有分支长度都已知。
2.3 特点
与其他方法相比,优点就是速度快,所以可以快速分析大型数据集。
3、最大简约法(Maximum parsimony,MP):
3.1 依据
基于奥卡姆(Ockham)哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。
3.2 方法
- 计算所有可能的拓扑结构
- 计算出所需替代数最小的那个拓扑结构,作为最优树。
3.3 特点
用于分析如插入、缺失等序列。在分析序列上存在较多的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合理的或者错误的进化树推导结果。