基因bioinformatics基因家族分析

进化树构建背景资料

2021-11-19  本文已影响0人  生信师姐

一、背景资料

进化树(evolutionary tree)又名系统树(phylogenetie tree)进化树,用来表示物种间亲缘关系远近的树状结构图。在进化树中,各个分类单元(物种)依据进化关系的远近,被安放在树状图表上的不同位置。所以,进化树简单地表示生物的进化历程和亲缘关系。已发展成为多学科(包括生命科学中的进化论、遗传学、分类学、分子生物学、生物化学、生物物理学和生态学,又包括数学中的概率统计、图论、计算机科学和群论)交叉形成的一个边缘领域。

image.png

Phylogenetic trees are used to describe genealogical relationships among a group of organisms, which can be constructed based on the genetic sequences of the organisms. A rooted phylogenetic tree represents a model of evolutionary history depicted by ancestor-descendant relationships between tree nodes and clustering of ‘sister’ or ‘cousin’ organisms at a different level of relatedness.
In infectious disease research, phylogenetic trees are usually built from the pathogens’ gene or genome sequences to show which pathogen sample is genetically closer to another sample, providing insights into the underlying unobserved epidemiologic linkage and a potential source of an outbreak.

生物进化的总趋势有以下几类

一般来说,进化树是一个二叉树。它由很多的分支和节点构成。根据位置的不同,进化树的节点分为外部节点和内部节点,外部节点就是我们要进行分类的分类单元(物种)。而物种之间的进化关系则用节点之间的连线表示。内部节点表示进化事件发生的地方,或表示分类单元进化的祖先。在同一个进化树中,分类单元的选择应当标准一致。进化树上不同节点之间的连线称为分支,其中有一端与叶子节点相连的分支称为外枝,不与叶子节点相连的分支称为内枝。

Components of a phylogenetic tree. External nodes (green circles), also called ‘tips,’ represent actual organisms sampled and sequenced (e.g., viruses in infectious disease research). They are the ‘taxa’ in the terminology of evolutionary biology. The internal nodes (blue circles) represent hypothetical ancestors for the tips. The root (red circle) is the common ancestor of all species in the tree. The horizontal lines are branches and represent evolutionary changes (grey number) measured in a unit of time or genetic divergence. The bar at the bottom provides the scale of these branch lengths.

进化树一般有两种:有根树和无根树。

拓扑结构

分子进化树(以分子数据为依据构建的进化树)不仅精确地反映物种间或群体间在进化过程中发生的极微细的遗传变异(小至一个氨基酸或一个核昔酸差异),而且借助化石提供的大分子类群的分化年代能定量地估计出物种间或群体间的分化年代,这对进化论的研究而言无疑是一场革命。

序列比较是生物信息学中最频繁也是最有价值的工作。要知道一个序列(结构)与另一个序列(结构)或者与一批序列(结构)之间的差异,唯一的途径就是序列(结构)的比较分析。序列水平上的比较反映的是字符串之间的差异,能够发现碱基序列或者氨基酸序列的保守模式。

但是,在分子生物学中,比较是多方面的,除了核酸或蛋白质序列的比较,也可以是结构的比较等。事实上,相差很大的序列可以形成具有相同功能的分子。而结构水平上的比较更能反映功能上的差异,能够发现与功能紧密相关的结构域。结构比较方面的工作都是围绕蛋白质及 RNA 展开的。

构建进化树的方法包括两种:一类是序列类似性比较,主要是基于氨基酸相对突变率矩阵(常用PAM250)计算不同序列差异性积分作为它们的差异性量度(序列进化树);另一类在难以通过序列比较构建序列进化树的情况下,通过蛋白质结构比较包括刚体结构叠合和多结构特征比较等方法建立结构进化

三种主要的建树方法分别是距离法( distance method )、最大节约法( maximum parsimony , MP )和最大似然法( maximum likelihood , ML )。

二、同源性

同源性( homology )是比较生物学中的一个中心概念。同源,最基本的意义就是具有共同祖先。一般来说,如果两个物种中有两个性状满足一下两个条件中的任意一个,就可以称这两个性状为一对同源状。
在分子进化研究中,同源性一般是指两个核酸分子的核苷酸序列或者两种蛋白质的氨基酸序列质检的相似程度。序列分析是最终测定同源性程度的方法。

1.2系统发育树格式

有多种文件格式旨在存储系统发育树以及与节点和分支相关的数据。三种常用的格式是 Newick 2、NEXUS ( Maddison et al. 1997 )和 Phylip ( Joseph Felsenstein 1989 )。某些格式(例如NHX)是从 Newick 格式扩展而来的。进化生物学中的大多数软件都支持 Newick 和 NEXUS 格式作为输入,而一些软件工具通过引入用于存储进化推理的新规则/数据块来输出更新的标准文件(例如BEASTMrBayes)。在其他情况下(例如PAMLr8s),输出的日志文件只能被自己的单个软件识别。

1.2.1 Newick 树格式

Newick 树格式是以计算机可读形式表示树的标准。

Tips were aligned to the right-hand side and branch lengths were labeled on the middle of each branch.g

上图所示的有根树可以由以下字符序列表示为 Newick 树文本。

((t2:0.04,t1:0.34):0.89,(t5:0.37,(t4:0.03,t3:0.67):0.9):0.59); 

树文本以分号结尾。内部节点由一对匹配的括号表示。括号之间是该节点的后代节点。例如 (t2:0.04,t1:0.34) 表示 t2 和 t1 的父节点,它们是直接后代。兄弟节点用逗号分隔,提示由它们的名称表示。分支长度(从父节点到子节点)由子节点后面的实数表示,前面是冒号。与内部节点或分支相关联的单一数据(例如,引导值)可以编码为节点标签并由冒号前的简单文本/数字表示。

参考:
https://www.renrendoc.com/paper/89627962.html
https://blog.csdn.net/weixin_33861800/article/details/86112643

上一篇 下一篇

猜你喜欢

热点阅读