基因那些事

2021-09-21基因的“命运”

2021-09-21  本文已影响0人  阿乜太帅

       随着技术的发展,动植物的全基因组测序到现在已经超过了2000个,而且这个惊人的数字是在最近三年内得到爆发的。这样体量的数据涌现,为分子生物学的发展提供了巨大的助力。最近三天身体不舒服,实在做不动分析了,挑这个时间简单归纳一下我对”基因的命运“这个课题的思考。
       自分子生物学诞生以来,科学家们就对蛋白编码基因的探索投入了最大的精力,每一个新的酶结构的解析,每一个新的基因功能的验证,每一个家族的演化关系阐明,都会得到学界的普遍关注。而这些编码基因其实只占到了基因组的5-10%左右,且数目总是维持在20,000-40,000之间。这是一种微妙的平衡,为了维持这种多样性与保守性,功能性与稳定性之间的平衡状态,基因很可能存在着一种诞生又消亡的机制。那么,基因生死命运背后的机制是什么呢,这个课题便得到了众多研究人员的关注。在大规模物种基因组被测序之前,人们只能根据部分家族,简单的位点的基础上去推测,而不能在基因组层面上得到大规模的理论验证。基因组时代的到来尤其是泛基因组学的发展,无疑为生物学家们试图解析基因的命运提供了绝佳的机会。
       我会在这篇短文里简单总结一下学界对此的探讨,理解不对,万请指正。

基因的 获得与丢失 plus 模型

       大概在上世纪70年代,学者们便发现了功能非常重要的基因家族的存在,其变化多样,但又在不同类群间保守。一开始人们觉得协同进化模型可以解释,但实际上协同进化模型解释不了基因家族为何如此多样性,即不同类群对应诞生了不同亚家族,同一个物种内不同亚家族同时存在。此时 获得与丢失 模型诞生并慢慢成熟,它认为基因有消亡与获得两种状态:
基因的消亡有两步:
基因变成假基因,再变成非基因序列。
基因的获得有三个渠道:

Birth-and-death model

模型里有几个名词需要界定:

假基因

       基因在不能给物种提供选择优势的时候,即不再具有适应性以后,会慢慢积累突变,当这些突变使基因序列过早出现的“终止信号”、增添或者缺失的核苷酸,造成了阅读框错误等等,总之就是最后无法合成原先的蛋白质,那么一个基因就成功转变为了假基因。
假基因的产生有两种模式:

       假基因由于失去了原有功能,可以随意的变异,有的会”沉沦“下去,变成非基因序列,也有些因为又获得了有利突变而重新变成了编码基因。除此之外,它还可能就这么作为假基因存在着,而且转录活跃, 参与生物系统的调控,只不过就是不翻译成蛋白质而已,很像lncRNA。

原基因(protogenes)

       是从非基因序列从头随机出的基因序列,具备一定的表达和转录能力,但是并不知道或没有确切的功能,很像新生的婴儿,有无限的可能。从序列水平看,也很难根据所谓的相似性给一个同源序列,这一点基本跟 孤儿基因 (orphan gene) 区分不开,孤儿基因一般被不是从头演化而来,而是由超出检测能力之外的 duplication 和 divergence 得来。想要区分两者,必须引入临近物种的基因组作为参考。但实际上,只有一个基因组的话,这种原基因与孤儿基因可以统称为新基因 (de novo gene)。
       原基因是怎么变成稳定的基因结构的呢,这就要引入适应性的概念,原基因由于处于活跃状态,往往会不停积累变异,当积累的变异对某一功能有利时,它便会稳定下来行使功能,而累积到的变异有害时,它会渐渐清洗从而再次变成 非基因序列。孤儿基因往往都是稳定且具有特定功能的,很多都是辅助性的,但是也有很多因为没有同源基因,其功能不可或缺,所以在基因组中非常保守稳定。

基因的自我复制与获得

基因除了从头获得,还可以在已有的基因基础上,直接产生。主要有四种模式 horizontal gene transfer,fusion/rearrangement,retrotransposition,gene duplication

1. 基因水平转移 (horizontal gene transfer)

       生物界中父母把基因传给子代的过程被称作基因垂直传递。水平传递与之不同,指生物将遗传物质传递给其他细胞/生物而非其子代的过程,例如:接合转导转化。植物界自发产生最广泛的就是叶绿体/线粒体跟细胞核的核质互换。而且根据内共生理论认为叶绿体和线粒体可能起源于细菌内共生。

Tree_Of_Life_with_horizontal_gene_transfer
2.基因融合与重排 (fusion / rearrangement)

染色体的易位/缺失/倒位或LTR-RT这类的转座子将两个原先各自独立基因的原件拼接到了一起,从而形成了一个新的融合的基因。


Gene_Fusion_Types
3.反转录转座(retrotransposition)

       这里就要介绍什么是转座子,最早是玉米中发现的,被称为跳跃基因,顾名思义,这类元件总是在基因组上跳来跳去的。转座子(Transposable elements) 根据活动模式被分I型(class I)和 II 型(class II):

4.基因重复(gene duplication)

顾名思义,基因一个变成了两个,就是基因重复。这是最早被发现,最多被研究,最被学者关注的一类基因获得模式。

4.1.基因重复事件有什么好处吗?
4.2.基因按照同源基因对的距离或来源,分为5类:
4.3.那么,有什么机制会推动基因重复事件的发生呢?

本文上面涉及到的转座子活动,染色体的重排,结构变异(倒位易位等)除了可能产生融合基因假基因等之外,都有可能推动基因的复制。

染色体的非整倍体或全基因组的复制则会造成相对大的WGD/segmental duplication产生。

除此之外,tandem,proximal 这类重复可能由三种模式引起:

4.4.基因重复之后,会经历怎样的命运呢,尤其是从需要历经选择的长期的过程来看。学者们提出了各种模型,目前来看可以大体归为三类:
完全保留;Deterioration或丢失;部分保留

       全基因组加倍(WGD)是生物界很有趣也异常重要的一个现象,即整个基因组直接加倍,分为同源多倍化、异源多倍化。多倍化事件为生物尤其是被子植物应对剧烈的环境变化提供了充足的弹药,一次基因重复释放了这个基因的压力,整个基因组的重复那将创造何等强大的变化潜力是难以想象的,重复基因的命运也就变得格外多样复杂。但是从底层的逻辑规律上看,这种全基因组层面加倍以后多基因的命运,与单基因重复之后的基因命运并没有表现出不同的前景。图中给出了简单的呈现,单基因多基因基本都遵循着类似的模式。
       需要注意的是,已有的研究发现,不同的基因重复事件之后,其走向的规律却是不同的,因此研究的方向也就格外多样化,例如总体比例,基因表达差异,基因组分布规律,诞生时间,丢失比例速率,重复次数,功能富集偏向性,选择压力,TF启动子的家族分类,剂量效应等等。


Long-term fate of single duplicated genes.png
Long-term fate of multiple duplicated genes.png
4.5.如何探究基因重复命运(保留模式)呢?

上图的模式看起来如此简单,但是考虑到技术实现的时候,探究某个物种的重复基因的命运就变得异常困难了。
好在最近几年测序技术的反正给这种分析提供了技术上的可行性:

总体来看,基因的命运还是曲折跌宕的,变化灵活多样,但不论怎样都没有脱离 Stochastic 和 Adaptive 的轮番上场斗法的”魔掌“,也是有趣。
上一篇下一篇

猜你喜欢

热点阅读