一文学懂进化树原理

2023-04-14  本文已影响0人  Bioinfor生信云

进化树概念

系统发育树(phylogenetic tree),也叫进化树,是物种间、基因间、群体间乃至个体间谱系关系的一种表现形式。

Node: 分枝的连接点或分枝的尖端都称为节点。 内部节点连接分枝;外部节点代表分类单元
Clade:一个祖先节点及其所有后代节点的组合称为一个分支。
Branch Length:分支长度,大多数情况下是分歧度,代表突变的累积

进化树的类型

根据是否指定了根节点,系统发育树可以分为有根树和无根树。

进化树的格式

Newick format

The New Hampshire X Format (NHX)

和Newick格式相比多了一个[ ]中的注释内容(贝叶斯软件)


Nexus format

建树过程

准备比对序列(核酸/氨基酸)→多序列全局比对(muscle/mafft)→构建进化树(NJ/ML/bayes)→进化树展示(ITOL/Evolview)

多序列比对

序列比对:根据特定的计分规则,通过一定的算法对两条或者多条DNA或蛋白序列进行比较,找出他们之间最优匹配或者最大相似度匹配。分为全局比对和局部比对两种方式。 多序列比对即全局比对,目的是对两条及以上序列全长进行比对,基于全长序列获得最优比对结果。


多序列比对算法

多序列全局比对算法主要以Clustal算法为代表,基本思路是利用动态规划算法。

  1. 对所有序列进行两两比对分析,计算相似性
  2. 基于两两比对结果,进行聚类分析,产生比对次序(一般用二叉树表示)
  3. 根据排序,从相似性最好的两条序列开始,逐个比对直至结束。

    比对结果格式
    fasta格式

phylip格式


常用的建树方法

基于距离

最简单的计算方法就是就两条序列间不一致的核酸或氨基酸的比例(P距离)不考虑回复替换或者多重替换


基于特征性状

概率函数为对已灭绝祖先的所有核苷酸组合可能性求和

建树方法的选择

根据多序列比对的结果,如果有极高的序列相似性就选最大简约法(MP),相似性还行就选NJ法,剩下就选ML或者贝叶斯


自展值

自展检验,用来检验所计算的进化树分支可信度。
方法:序列长度为 m 时,从原始 m 个位点进行有返回抽样所得每一序列在 m 个位点的那些碱基得到Bootstrap 样本。抽取100/500/1000个Bootstrap样本,每一 Bootstrap 样本使用相同方法构树,检查原始树的分枝在bootstrap样本构的树中出现的次数,计算比例。

常用的建树软件

最好用的是MEGA、RAxML、fasttree、IQ-tree


树的展示和美化

MEGA: https://www.megasoftware.net/
Figtree: http://tree.bio.ed.ac.uk/software/figtree/
iTOL: https://itol.embl.de/
EvolView:https://www.bio.tools/evolview#

上一篇 下一篇

猜你喜欢

热点阅读