基因表达分析生信相关分子进化

分子进化研究笔记

2017-09-18  本文已影响119人  bioinfo2011

(一)分子进化的研究方法


1. 分子进化研究的意义

自20世纪中叶,随着分子生物学的不断发展,进化研究也进入了分子进化(molecularevolution)研 究水平,并建立了一套依赖于核酸、蛋白质序列信息的理论和方法。随着基因组测序计划的实施,基因组的巨量信息对若干生物领域重大问题的研究提供了有力的帮

助,分子进化研究再次成为生命科学中最引人注目的领域之一。这些重大问题包括:遗传密码的起源、基因组结构的形成与演化、进化的动力、生物进化等等。分子 进化研究目前更多地是集中在分子序列上,但随着越来越多生物基因组的测序完成,从基因组水平上探索进化奥秘,将开创进化研究的新天地。

分子进化研究最根本的目的就是从物种的一些分子特性出发,从而了解物种之间的生物系统发生的关系。通过核酸、蛋白质序列同源性的比较进而了解基因的进化以及生物系统发生的内在规律。

2. 分子进化研究的基础

假设:核苷酸和氨基酸序列中含有生物进化历史的全部信息。*

分子钟理论:在各种不同的发育谱系及足够大的进化时间尺度中,许多序列的进化速率几乎是恒定不变的。

直系同源与旁系同源

直系同源(orthologs):同源的基因是由于共同的祖先基因进化而产生的;

旁系同源(paralogs):同源的基因是由于基因复制产生的。

注:用于分子进化分析中的序列必须是直系同源的,才能真实反映进化过程。

3. 分子进化研究的基本方法

对于进化研究,主要通过构建系统发育过程有助于通过物种间隐含的种系关系揭示进化动力的实质。$

表型的(phenetic)和遗传的(cladistic)数据有着明显差异。Sneath和Sokal(1973)将表型性关系定义为根据物体一组表型性状所获得的相似性,而遗传性关系含有祖先的信息,因而可用于研究进化的途径。这两种关系可用于系统进化树(phylogenetictree)或树状图(dendrogram)来表示。表型分枝图(phenogram)和进化分枝图(cladogram)两个术语已用于表示分别根据表型性的和遗传性的关系所建立的关系树。进化分枝图可以显示事件或类群间的进化时间,而表型分枝图则不需要时间概念。文献中,更多地是使用“系统进化树”一词来表示进化的途径,另外还有系统发育树、物种树(speciestree)、基因树等等一些相同或含义略有差异的名称。

系统进化树分有根(rooted)和无根(unrooted)树。有根树反映了树上物种或基因的时间顺序,而无根树只反映分类单元之间的距离而不涉及谁是谁的祖先问题。

用于构建系统进化树的数据有二种类型:一种是特征数据(characterdata),它提供了基因、个体、群体或物种的信息;二是距离数据(distancedata)或相似性数据(similaritydata),它涉及的则是成对基因、个体、群体或物种的信息。距离数据可由特征数据计算获得,但反过来则不行。这些数据可以矩阵的形式表达。距离矩阵(distancematrix)是在计算得到的距离数据基础上获得的,距离的计算总体上是要依据一定的遗传模型,并能够表示出两个分类单位间的变化量。系统进化树的构建质量依赖于距离估算的准确性。

(二) 研究算法

1. 三种算法: 距离矩阵法,最大简约法,最大似然法

距离矩阵法(distance matrix method)是根据每对物种之间的距离,其计算一般很直接,所生成的树的质量取决于距离尺度的质量。距离通常取决于遗传模型。

最大简约法(maximum parsimony method)较少涉及遗传假设,它通过寻求物种间最小的变更数来完成的。

最大似然法:对于模型的巨大依赖性是最大似然法(maximum likelihood method)的特征,该方法在计算上繁杂,但为统计推断提供了基础。

2. 距离矩阵法

首先通过各个物种之间的比较,根据一定的假设(进化距离模型)推导得出分类群之间的进化距离,构建一个进化距离矩阵。进化树的构建则是基于这个矩阵中的进化距离关系。这里的遗传距离为所有成对实用分类单位(operational taxonomic units,OTU)之间的距离。用这些距离对OUT进行表型意义的分类可借助于聚类分析(clustering),聚类过程可以看作是鉴别具有相近OUT类群的过程。

由进化距离构建进化树的方法很多,常用有如下几种

平均连接聚类法(UPGMA法):聚类的方法很多,包括序贯法(sequential)、聚合法(agglomerative)、分层法(hierarchical)和非重叠法(nonoverlapping)等。应用最广泛的是平均连接聚类法(average linkage clustering)或称为UPGMA法(应用算术平均数的非加权成组配对法,unweighted pair-group method using anarithmetic average)。该法将类间距离定义为两个类的成员所有成对距离的平均值,广泛用于距离矩阵。Nei等模拟了构建树的不同方法,发现当沿树上所有分枝的突变率相同时,UPGMA法一般能够得到较好的结果。但必须强调有关突变率相等(或几乎相等)的假设对于UPGMA的应用是重要的。另一些模型研究(如Kim和Burgman)已证实当各分枝的突变率不相等时,这一方法的结果不尽人意。当各分枝突变率相等时,认为分子钟(molecularclock)在起作用。

Neighbor-JoiningMethod(NJ法/邻接法):邻接法(Neighbor-joiningMethod)由Saitou和Nei(1987)提出。该方法通过确定距离最近(或相邻)的成对分类单位来使系统树的总距离达到最小。相邻是指两个分类单位在某一无根分叉树中仅通过一个节点(node)相连。通过循序地将相邻点合并成新的点,就可以建立一个相应的拓扑树。

3. 最大简约法

最大简约法(maximum parsimony,MP)最早源于形态性状研究,现在已经推广到分子序列的进化分析中。最大简约法的理论基础是奥卡姆(Ockham)哲学原则,这个原则认为:解释一个过程的最好理论是所需假设数目最少的那一个。对所有可能的拓扑结构进行计算,并计算出所需替代数最小的那个拓扑结构,作为最优树。

Felsenstein指出,在试图使进化事件的次数最小时,简约法隐含地假定这类事件是不可能的。如果在进化时间范围内碱基变更的量较小,则简约法是很合理的,但对于存在大量变更的情形,随着所用资料的增加,简约法可能给出实际上更为错误的系统树。

最大简约法的优点:最大简约法不需要在处理核苷酸或者氨基酸替代的时候引入假设(替代模型)。此外,最大简约法对于分析某些特殊的分子数据如插入、缺失等序列有用。

缺点:在分析的序列位点上没有回复突变或平行突变,且被检验的序列位点数很大的时候,最大简约法能够推导获得一个很好的进化树。然而在分析序列上存在较多 的回复突变或平行突变,而被检验的序列位点数又比较少的时候,最大简约法可能会给出一个不合理的或者错误的进化树推导结果。

4. 最大似然法

最大似然法(maximum likelihood method)最早应用于系统发育分析是在对基因频率数据的分析上,后来基于分子序列的分析中也已经引入了最大似然法的分析方法。

最大似然法分析中,选取一个特定的替代模型来分析给定的一组序列数据,使得获得的每一个拓扑结构的似然率都为最大值,然后再挑出其中似然率最大的拓扑结构 作为最优树。在最大似然法的分析中,所考虑的参数并不是拓扑结构而是每个拓扑结构的枝长,并对似然率球最大值来估计枝长。最大似然法的建树过程是个很费时 的过程,因为在分析过程中有很大的计算量,每个步骤都要考虑内部节点的所有可能性。

最大似然法也是一个比较成熟的参数估计的统计学方法,具有很好的统计学理论基础,在当样本量很大的时候,似然法可以获得参数统计的最小方差。只要使用了一个合理的、正确的替代模型,最大似然法可以推导出一个很好的进化树结果。. u/ Z$ H* K; w4 \4 d5 `

5.  点评:

其实上面的那些方法,都可以称为Concatenated(串级)方式的分析方法,就是先把marker 如:直系同源基因 alignment后,用相应软件以串联的方式连接起来,然后推断系统发育树,这通常叫concatenated analysis。

我们都知道每个同源基因或者maker的进化速率是不一样的,所以最近非常流行Coalescent(有人翻译成 溯祖)analysis,我的理解是 每一个直系同源基因先alignment,建树,然后再用相关软件把每个tree合并,实际的软件也是这样做的。如果做Phylogenomics trees或者Species tree的话,一般都要用这个方法做一下,其中我的一篇文章也用了这个方法分析了(审稿人要求的)。这个方法相应的软件有MPEST,*BEAST(这个软件已集成在BEAST 1.75版本),BEST,BUKY,STAR.如果考虑属内种间系统情况的话,可能要考虑杂交了,可以看一下HybTree(COAL).

(三) 软件的选择

1. 构建软件的选择

构建NJ树,可以用PHYLIP或者MEGA。MEGA是Nei开发的方法并设计的图形化的软件,使用非常方便,推荐使用。虽然多序列比对工具ClustalW/X也自带了一个NJ的建树程序,但是该程序只有p-distance模型,而且构建的树不够准确,一般不用来构建进化树。

构建MP树,最好的工具是PAUP,但该程序属于商业软件,并不对科研学术免费。MEGA和PHYLIP也可以用来构建MP树。

构建ML树可以使用PHYML,速度较快。也可使用Tree-puzzle,该程序做蛋白质序列的进化树效果比较好。ML还可以使用PAUP、PHYLIP(或BioEdit)来构建。BioEdit集成了一些PHYLIP的程序,用来构建进化树。Tree-puzzle是另外一个不错的选择,不过该程序是命令行格式的,需要学习DOS命令。

贝叶斯的算法以MrBayes为代表,不过速度较慢。一般的进化树分析中较少应用。

2. 进化树评估优化方法简介:

常用的两种方法就是Bootstrap和Jackknife。

所谓Bootstraping法 就是从整个序列的碱基(氨基酸)中任意选取一半,剩下的一半序列随机补齐组成一个新的序列。这样,一个序列就可以变成了许多序列,一个多序列组也就可以变 成许多个多序列组。根据某种算法(最大简约性法、最大可能性法、除权配对法或邻位相连法)每个多序列组都可以生成一个进化树。将生成的许多进化树进行比 较,按照多数规则(majority-rule)我们就会得到一个最“逼真”的进化树。

Jackknife则是另外一种随机选取序列的方法。它与Bootstrap法的区别是不将剩下的一半序列补齐,只生成一个缩短了一半的新序列。

参考文献

本文转载自  http://blog.sciencenet.cn/blog-724080-737178.html

上一篇下一篇

猜你喜欢

热点阅读