【生信课程】04-分子进化与系统发生-山东大学-生物信息学
分子进化与系统发生
进化的故事:拉马克与用进废退
拉马提出进废退理论。他说生物经常使用的器官会逐渐发达,不经常使用的器官会逐渐退化。而且这种后天获得的性状是可以遗传的,因此生物可以把后天锻炼的成果遗传给下一代。拉马克举了长颈鹿的例子。
image.png
反对
拉马克主义提出后,生物界支持声和反对声此起彼伏。先来听听反对他的声音。德国科学家魏斯曼做了一个实验。他把老鼠的尾巴都切断,之后再让没有尾巴的老鼠互相交配,生出的下一代老鼠依然是有尾巴的。然后再把子代老鼠的尾巴切断之后交配,生出的下一代老鼠依然是有尾巴的。实验一直重复至第 21 代,但是老鼠的尾巴依然长长的,一点儿都没短。于是魏斯曼说拉马克是错的!
支持
再来听听支持的声音。水生的雄蟾蜍都有一个黑色的趾垫,而陆生的没有。奥地利科学家卡姆梅勒,强迫陆生的产婆蟾在水中生活。繁殖了几代之后就绝种了。但是在绝种之前,产婆蟾的雄蟾蜍据称是长出了黑色的指垫,而且水中生活的这几代,趾垫越来越明显。
进化的故事:达尔文与自然选择
达尔文认为“物竞天择”意味着,存在一种最初的生物,之后通过某种方式得到了改良。如果环境对你施加压力,压力有可能是捕食者的威胁或类似的情况,那些通过某种手段生存下来,并且繁衍后代的生物,他们的后代也能生存下来,并且继续繁衍生息。因此,如今我们所见到的动植物都拥有很强的适应性。
基本概念:如何研究进化
分子水平是指 DNA、RNA、以及蛋白质序列。
image.png
基本概念:不同的同源
同源(Homologs),相同来源。
它的确切定义是,来源于共同祖先的相似序列为同源序列。
也就是说,相似序列有两种,一种是来源于共同祖先的,那么他们可以叫同源,另一种不是来源于共同祖先的,那么他们尽管相似也不能叫同源。
第二种情况出现的概率虽然低,但还是存在的,所以相似序列并不一定是同源序列。
同源又分为三种,直系同源,旁系同源和异同源。
直系同源(Orthologs)
是指,来自于不同物种的由垂直家系,也就是物种形成,进化而来的基因,并且典型的保留与原始基因相同的功能。也就是说,随着进化分支,一个基因进入了不同的物种,并保留了原有功能。这时,不同物种中的这个基因就属于直系同源。
旁系同源(Paralogs)
是指在同一物种中的来源于基因复制的基因,可能会进化出新的但与原功能相关的功能来。
基因复制产生了两个重复的基因,多出来的这个有几种命运,一个是又丢了。复制出来发现没有用,又删了。另一种命运是演化出了新的功能。
如果这个新功能是往好的方向发展,就会被保留下了,如果是往不好的方面发展,就会被自然选择淘汰。
还有一种命运,就是被放置不用。复制出来以后,又加了个终止子,既不表达,也不删除,搁那里搁着不管,成了伪基因。
被保留下来的具有新功能的基因与另一个复制出来的基因之间就是旁系同源。
异同源(Xenologs)
是指通过水平基因转移,来源于共生或病毒侵染所产生的相似基因。
异同源的产生不是垂直进化而来的,也不是平行复制产生的,而是由于原核生物与真核生物的接触,比如病毒感染,在跨度巨大的物种间跳跃转移产生的。
基本概念:“树状”还是“网状”
在计算机科学领域,树的定义规定,树上从一个点到另一个点的路径只有唯一的一条。而当两点之间的路径个数≥2 的时候,就形成了网。
编织生命网的要素之一就是水平基因转移。水平基因转移,是指生物将遗传物质传递给其他细胞而非其
子代细胞的过程。
系统发生树:系统发生树的样子
研究分子进化所要构建的系统发生树(Phylogenetic tree),也叫分子树。
image.png
树是从根(root)长出来的。从根延伸出的树枝就叫枝(branch/lineage)。枝上有分叉,分叉的地方就叫节(node)。枝的顶端顶着的就是叶(leaf)。根、节和叶都可以叫做节点(node)。但是叶后面不再有枝了,是最外面的节点,所以叫外节点(outer node)。而节的前后都有枝,所以叫内节点(inner node)。根是一切的起源,习惯上就叫根。根和节都表示理论上曾经存在的祖先,叶子是现存的物种。
形状表示生物学意义都一样。如序列多,用原型,方便paper排版。
image.png
系统发生树:系统发生树的种类
根,它应该是所有叶子的共同祖先。
image.png
外类群(outgroup)来确定,从而把无根树变成有根树。
有根树反映了树上基因或蛋白质进化的时间顺序,通过分析有根树的树枝的长度,可以了解不同的基因或蛋白质以什么方式和速率进化。
而无根树只反映分类单元之间的距离,而不涉及谁是谁的祖先问题。
做有根树需要指定外类群。所谓外类群,就是你所研究的内容之外的一个群。
1998 年,伍斯提出了一个涵盖整个生命界的系统树。
image.png
物种树是基于每个物种整体的进化关系,也就是基于整个基因组构建的,而分子树是基于不同物种里某一个基因或蛋白质序列之间的关系构建的。
image.png
系统发生树的构建
4.4系统发生树的构建
从实用的角度,建议使用最大似然法。因为这种方法无论从速度还是准确度都比较适中。
最近邻居法虽然算得快,但是当序列多,彼此差别小的时候,这种方法不适合。
最大简约法,似乎是个掉空里的方法,高不成低不就,所以很少有人使用。
贝叶斯法不是所有的建树软件都提供,算法开发上还有待提高,而且计算时间过长。
image.png目前流行的建树软件,PHILIP 和 MEGA,基本能够包括上述所有算法。
软件 说明 网址
PHYLIP 免费的、集成的进化分析工具 http://evolution.genetics.washington.edu/
phylip.html
MEGA 图形化、集成的进化分析工具 http://www.megasoftware.net/
PAUP 商业软件,集成的进化分析工具 http://paup.csit.fsu.edu/
PHYML 最快的 ML 建树工具 http://www.atgc-montpellier.fr/phyml/
MrBayes 基于贝叶斯方法的建树工具 http://mrbayes.csit.fsu.edu/
以非加权分组平均法(UPGMA 法)为例,介绍如何通过计算所有序列两两间的距离,再根据距离远近构建系统发生树。序列两两间的距离可以用双序列比对得出的一致度/相似度代表,或用其他简化值代替。
image.png经单碱基计算后,AB序列距离最小。按0.5,0.5长度构建AB的的系统发生树。
image.png
将AB看成整体,分别计算C、D的距离。在新表中,最小距离为C、D。按1,1距离进行构建C、D的系统发生树
image.png
将CD与AB进行比较,为3,构建1.5,1.5距离的系统发生树。完成四条序列的建树。
jinhushu image.png序列的选取要遵循以下原则:
1)如果 DNA 序列两两间的一致度≥70%,选用 DNA 序列。
因为,如果 DNA 序列都如此相似,它们对应的蛋白质序列会相似到几乎看不出区别。这对于构建系统发生树是不利的。所以这种情况选用 DNA 序列,而不选蛋白质序列。
2)如果 DNA 序列两两间的一致度<70%,DNA 序列和蛋白质序列都可以选用
MEGA7 构建 NJ 树:建树前准备
1)软件免费;
2)软件在默认设置下建树的效果就很好;
3)软件被业界普遍认可,做出结果可以用于文章发表;
4)软件支持多操作系统,而且安装简单。
MEGA7 是完全的图形化界面操作(http://www.megasoftware.net/)。
示例
在接下来的例子里我们要为附件中 TIR.fasta 里的序列构建 NJ 树。
TIR.fasta 里存储了 10 条人的不同 Toll 样受体胞内域的氨基酸序列。只有具有一定亲缘关系,也就是彼此比较相似,但又存在一定差别的序列拿来做多序列比对,或拿来构建系统发生树才有意义。
File输入数据
Align方式打开文件
image.png
成功导入后,排列不整齐
选择“Align”之后,在弹出的 Alignment Explorer窗口上点击 Alignment Align by ClustalW。
MEGA 提供 ClustalW 和 Muscle 两种多序列比对方法。
这里选择熟悉的 ClustalW 方法。弹出窗口询问“Nothing selected for alignment.Select all? (是否要选择所有序列来做多序列比对) ”,选择 OK。
MEGA 的所有默认参数都不是随便设置的,这些经过反复考量默认设置好的参数保证了 MEGA 傻瓜机全自动档的品质。
所以,当你无从下手的时候,直接点 OK,接受这些默认参数,开始计算多序列比对。
image.png image.png
Alignment Explorer 窗口上点 Data 》 Export Alignment 》MEGA Format。注意这里一定选 MEGA format 以方便
MEGA 继续加工。其他格式适用于其他软件。
多序列中,出现最多的字母,为共有序列
点击C按钮,出现保守序列,标黄色
点击V按钮,标黄不保守的列,可以取消打勾淘汰序列,不参与建树
image.png
点击分页,创建分组
点彩色方块,修改为短名字。名字来源于fasta的>标题
image.png
准备工作全部完成。
MEGA7 构建 NJ 树:构建 NJ 树
选 Neighbor Joining(最近邻居法)
image.png点击yes,是使用TIR.meg的数据。
参数设置,影响树的构造,一般默认建树后,重新调整参数,让树更美观。
image.png第一个参数:
Test of Pylogery 建树的检验方法设置,默认为不进行检验,检验方法,可以选常用的 Bootstrap method(步长检验)
并设置检验的倍数,通常设为500。
步长检验是根据所选的建树方法,计算并绘制指定次数株系统发生树。因为大多数建树方法的核心算法都是统计概率模型,所以每次计算出的树都会有所差别。而建好的系统发生树上每个节点上都会标记一个数字,它代表了指定次数次计算所得出的系统发生树中有百分之多少棵树都含有这一节点。一般来说,绝大多数节点上的数值都大于 70%的树才可信。个别低于 70%的节点可以暂且容忍,或通过添加,删减序列来改善质量。
第二个参数:
Substitution Model。它是选择计算遗传距离时使用的计算模型。理论上应该尝试各种模型,根据检验结果选择最合适的模型进行计算。但在实际操作中,可先尝试选用较简单的距离模型,比如 p-distance。
第三个参数是 Gap/Missing Data Treatment。
大多数建树方法会要求删除多序列比对中含有空位的列。但是根据遗传距离度量方法的不同,删除原则也不同。如果是以序列间不同残基的个数来度量遗传距离的话,这里需要选择 Complete deletion(全部删除)。如果是其他方
法,比如这里选用的 NJ 方法,可以选择 Partial deletion(部分删除)。删除程度定在 50%,即,保留一半含有空位的列。
按compute,开始计算系统发生树。
image.png
这个窗口里有两个标签页。
第一个是 Original Tree(原始树),
第二个是 Bootstrap consensus tree(步长检验合并出来的树)。
当前构
建的这株系统发生树中,绝大多数节点处的数值都是≥70 的,所以这株树整体上是可信的。
Original Tree 是步长检验构建的 500 株树中的一株,未经过多棵树合并,所以树枝的长短可以精确代表遗传距离。
比如,TLR5 似乎脱离了CM 组,成为了外类群,从而确定了树根。
image.png