群体遗传学生信比较基因组

系统进化树简介及构建

2021-02-14  本文已影响0人  shenghuanjing

系统进化树学习笔记。

系统进化树简介

系统进化树(Phylogenetic tree):用一种类似树状分支图形来概括各节点之间的进化关系,节点可以是不同物种、同一物种不同样本、不同基因等。可体现物种进化关系和演化历程,群体内部样本亲缘关系,基因家族成员分类和进化关系等。
分类:根据是否指定跟节点,可分为有根树和无根树。
无根树:没有指定祖先节点,进化树只呈现各个节点的拓扑结构和相关距离。

无根树
有根树:指定根节点,进化树可呈现各个节点的距离和祖先节点以及各个分枝分化的先后关系,可用于分化时间的推断。 有根树

系统进化树的基本元素

进化拓扑结构:进化树不同分支的拓扑图形。
根(root):所有分类的共同祖先。
节点(node):一个分类单元:有外部节点(out node)和内部节点(inner node),外节点又称叶节点,代表参与分析的物种或序列。
进化分支:两种以上生物(或序列等)及其祖先组成的树枝。
外群:与分析序列相关的生物序列且具有较远的亲缘关系。
常用的三个指标:距离标尺、分支长度和自展值
距离标尺:进化树可显示序列的差异度(数值),标尺即为“比例尺”。
分支长度:对应演化距离,在树形结构中,枝长累积距离越近的样本或序列差异越小,反之差异越大,如 D 和 I 之间的差异就是 a+b,D 和 F 之间的差异度是 a+c+d。
自展值(bootstrap):检验计算的进化树分支可信度,该值范围 0-1 或者 0-100% 。

系统进化树的基本元素

系统进化树的拓扑结构

经典形式(Traditional),圈图(Circular),辐射树(Radiation)

系统进化树的拓扑结构
CladogramPhylogdram区别关键在于枝长(branch length)是否代表进化距离。
  1. Cladogram 强调分支的进化关系,或者可以理解为拓扑上的关系,枝长不代表进化距离,每一个tip在末端对齐。


    Cladogram

    2.Phlogdram强调的是种系遗传,枝长有意义,代表遗传变化的多少或进化距离,越长距离祖先状态变化越大。


    Phylogdram

系统进化树构建

系统进化树的构建步骤

1.数据准备

基因的核苷酸序列,SNP位点,蛋白的氨基酸
FASTA格式:第一行是由大于号“>”打头。从第二行开始为序列本身。

FASTA格式

2.多序列比对

常用的软件包括MEGA,Clustal X,Muscle,Phylip。
MEGA:是最常用的比对建树软件,优点是可视化图形界面,操作方便简单;但是比对速度慢,输出格式单一
Clustal X:优点是图形界面,可输出多种格式(如phy),但是速度也不快
Muscle 和 Phyllp 的优点是运算快,但需要简单地应用代码,不适合初学者。
多序列比对结果优化:Jalview

3.选择建树方法

Distance-based methods 距离法(NJ邻接法,MP最大简约法、ML最大似然法、Bayesla贝叶斯法,推断法)
首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵,进化树的构建则是基于这个矩阵中的进化距离关系。如果序列的相似性较高,各方法的结果差别不大;现在文章较常见的是NJ和ML模型。可根据序列相似度选择建树方法,对于近缘序列,可以用MP,MP一般不用在远缘序列上,这时一般用NJ或ML
NJ和ML需要选择模型:蛋白质序列一般选择Poisson Correction(泊松修正)模型,核酸序列选择Kimura 2-parameter(Kimura-2参数)模型。

建树方法优缺点

4.构建进化树

构建进化树的软件

建树软件的选择

进化树的评估
1⃣️Bootstrap评估进化树:用来检验构建的进化树分支可信度的。

2⃣️ 自展值大于75(75%)才认为这个分枝是可靠的。

3⃣️ 可用两种不同的方法构建进化树,如果所得到的进化树类似,则结果较为可靠。

image.png

进化树美化

上一篇下一篇

猜你喜欢

热点阅读