补充-1:基因是什么?

2020-02-06  本文已影响0人  芜穀杂粱

在演化故事的叙述中,基因一直是故事的核心。而基因想法的提出、验证,到最终的实物上的对应,功能的明确,却经历了漫长而曲折的过程。本次借着复习植物学的机会,我们来学习一下生物遗传的最基本特征,进而加深我们对演化的主力——基因,有更好地理解。

基因是什么?实际上这个问题的答案非常复杂,因为不同的层面有不同回答。从物质本质上来说,基因是一段特殊的DNA;从功能上来看,基因给生物的一切内容创造了基础(在此之上环境再和基因相互作用改);从演化来说,基因是演化的最小的单位。遵着唯物主义的精神,我们先认识一下基因的实体,也就是DNA。

DNA,全称是脱氧核糖核酸(deoxyribonucleic acid)。我们都听说过DNA是个双螺旋double helix结构,像螺旋楼梯,那么这个双螺旋“楼梯”的“台阶”是什么呢?组成这个双螺旋台阶的单元是一个个核苷酸。DNA是一种多聚物polymer,这是一个化学上的概念,指该物质由很多个小的单体monomer重复很多很多很多个,以特殊的方式聚合成一个高分子物质。DNA的单体非常简单,就是核苷酸nucleotides,而每个小核苷酸又是3个小组分化合起来的一个化合物,包括一个含有N元素的碱基base,一个5碳为骨架的糖分子,即脱氧核糖deoxyribose,和一个磷酸基团phosphate group。因为DNA的单体所使用的糖分子是脱氧的,这和之后讲到的DNA的亲戚RNA所用的糖不同(RNA的糖有氧),所用DNA的单体叫脱氧核糖核酸deoxyribonucleotide。脱氧核糖核苷酸的三个组分中,磷酸基团和脱氧核糖都是不变的,所有的单体都有着一样的成分,但是碱基则有四种不同的类型,就是我们耳熟能详的AGTC:其中两个是嘌呤类物质purine,adenine腺嘌呤A,guanine鸟嘌呤G;两个是嘧啶类pyrimidine,thymine 胸腺嘧啶T,cytosine胞嘧啶C (图1)。

图1

小单体之间通过磷酸二酯键phosphodiester bond(图中这里的磷酸-糖键是俗称,为了简化)相互连接,就构成了DNA双螺旋的一条链。而碱基是DNA螺旋结构的关键。碱基之间可以通过一种特殊的分子间作用力(即氢键hydrogen bond)相互配对,配对的原则是A-T,C-G,即嘧啶和嘌呤相互结合。碱基相互配对识别朝向内侧,各自把自己的磷酸-五碳糖部分撅向外侧,这样一个单链的脱氧核糖核酸多聚体就可以和相应的互补的链配对变成一个双链。在自身和外界联合的复杂分子间作用力下,双链DNA会自发地扭曲成双螺旋的结构,这就是我们熟知的样子了(图2)。

图2:左侧是DNA双螺旋,外围紫色的是磷酸-五碳糖组成的“扶手”,中间的“台阶”是相互互补配对的碱基对。配对的过程是右图。

因为DNA中碱基的类型只有4种,可以理解为基因的“语言”中只有4种文字(注意,将基因类比成语言、文字、书籍、信息的一类比喻会在整个讲解中反复使用,因为这是我目前遇见的最适合的类比体系了,并且两个体系本质上确实是一样的事情)。这么少的文字类型,想要传达复杂的信息,显然我们说的“话”就要非常非常长才足够说出我们想要的信息。如果学习过进制转化,你一定记得在十进制下一个单个数字的数值被转化成二进制之后增多了多少个数字。DNA这里也是如此,为了储存大量的信息,每一种生物的DNA都长得夸张:平均的一个细胞中所有DNA的长度会长达5cm。而真核生物细胞的平均大小也才几十微米μm(1cm=10000μm)。这样长的DNA链必须要有序地存放在细胞里面,才能方便读取、复制。因此生物采用了一套非常高效的多级压缩的机制,将DNA长链紧密地压缩到大概只有10微米,整整缩小了5000倍。

整个压缩的体系是多层嵌套的。DNA双链首先会一小段一小段地缠绕在一种球形蛋白:组蛋白histone上,形成一种串珠状的结构,这每一个小的组蛋白-DNA串珠称之为核小体nucleosome。一串核小体再围绕着一些蛋白结构开始进一步压缩螺旋,最终会压缩成紧密的长条,这就像是一根根细丝缩成了毛线。这个包含了组蛋白和DNA的压缩的结构,我们称之为染色质chromatin。很多的染色质在细胞核中呈现比较自由的状态,像是一坨散乱的毛线,而在特殊的细胞分裂时期,为了让染色质均等地分配给两个子代细胞,这些染色质还可以进一步压缩成棒状,也就是染色体chromosome。这个过程类似于把毛线团成毛线团。一个一个规整的染色体就能很方便被细胞分配给自带细胞。这样一层一层的多级折叠压缩的结构,就是一个细胞的细胞核中DNA的日常样子(图3)。基因的实体DNA平时就以染色质的形式在细胞中压缩储存,这对于基因的表达有着至关重要的作用,就像书的实体形态会影响我们怎么样从书中获取信息一样:电子书和纸质书的阅读体验不一样,而阅读一本被“胶封”的书和一本活页书感觉又完全不同。这其中的细节我们会在之后的基因的表达中详细讲解。

图3. https://zh.wikipedia.org/wiki/%E6%9F%93%E8%89%B2%E4%BD%93

认识过基因的外观实体结构之后,我们要看一看基因的内部结构是什么样的,也就是,DNA上的序列长什么样子。生物体的一切基底信息都蕴藏在基因中,基因就像是一本生物的蓝图。而蓝图构建出具体实物的核心途径是指导生物大厦中重要的组建:蛋白质的合成。因此,常见的对基因的定义就是,能指导合成一个蛋白质的一段DNA序列,就是基因。我们这里先粗显地认为,基因的定义是能表达出蛋白质的一段DNA,这是最古老的也最典型的视角,尽管可能有一定的偏差,但是并不妨碍我们对真实世界的认识。接下来要说的内容,是关注于真核生物eukaryota的基因结构,原核生物prokaryote的基因结构会有一些变动,不过大致的框架其实是相似的。

如果你还记得高中生物的中心法则central dogma,你就可能还对DNA——RNA——蛋白质这条表达的路径有过印象。不过不记得也无妨,在详细介绍中心法则之前,我们可以先看看这个中心法则是在一个什么样的结构上起步的。既然说过基因是一段能表达的DNA,那么很显然,这段DNA序列中要有一段是最终翻译成蛋白质的。没错,这样重要的区段,我们将其称为编码区coding region,是一个基因中的核心部分。这一部分的碱基三个三个一组对应到转录出的mRNA上就是一串密码子,会被核糖体识别翻译出蛋白质,接着蛋白质就开始执行生物的一切功能。我们可以把这段编码区DNA所带有的信息想象成是一本故事集中的一个故事主体,这就是我们读故事的重要内容,没错吧?你总是想要读一个故事,而不是说看了点脚注标题目录就敢说自己看了一个故事(好像也有人这么做呢)。

不过在翻开一本故事集时,你要怎么样才能知道你想要读的故事开始了呢?也许你一页一页地翻,直到看到了你想要读的故事的标题,这时候你就知道,一个正常排版的书中接下来书的内容就要是这个故事了。对于DNA,情况是完全一样的,细胞需要知道一段编码区从什么地方起始,才能决定要不要开始表达这个基因。类似书中的标题,DNA上在紧挨着编码区的前方有一个特殊的序列,叫启动子promoter。这个启动子是转录过程中起始转录的蛋白质(RNA聚合酶RNA polymerase)识别的地方。起始转录的蛋白沿着DNA序列前进时,一旦读到这段启动子序列,它就明白自己马上就要开始干活了,这时它就可以精神抖擞地调整好自己开始勇往直前转录接下来的编码区了(这里用了拟人的手法表述这个过程,实际上后面了解到基因表达的调控时,会知道这里的过程有偏差;并且真实的生物体中RNA聚合酶是不会“有意识地主动地去读DNA”,而是随机地碰撞到这里后,因为启动子序列对RNA聚合酶有更高的亲和性,所以酶暂时跑不开,就开始转录了)。

现在我们继续想象那个读书的类比,刚刚我们把书翻了好久才看到标题而找到自己想读的故事。这种傻得冒泡的事情我们一般不会做。常见的是,我们会先去看书的目录,找到我们的故事对应的页码,然后再开始翻到对应页数,看到了期待的标题,确定这是我们要的故事。对于一个有目录的书,这样的阅读方式明显高效许多。那么在DNA上,确实也有很多序列类似于书的目录,它们一般分布在编码区的前方,指导着开始转录的蛋白去快速地定位到编码区,加速表达。这样加速响应编码区表达的DNA序列我们称之为增强子enhancer。那么既然有增强子,有没有沉默子呢silencer?也是有的,和增强子一样,沉默子也有可能分布在上游,它们的功能可能是阻止蛋白前来与编码区结合,而沉默这个地方的表达。就像是我们读一本目录错乱的书,看了目录之后反而对应到了不对的页码,阻止我们读我们想要的故事。

现在我们终于找到了我们的故事,翻到了书的这一页。如果是一本排版精美而繁复的书,一个故事在标题和正文之间有可能穿插着一点导言,或者前景提要,而在这之后才是故事的主体部分。导言和前景提要是这篇小说的一部分,但可能并不是我们想要了解的故事情节的主体。因此,你有可能会见到首字下沉的排版(图4),这个特殊的被放大的字用来预示着你:在这里才要开始故事正文。编码区也是如此安排的。在编码区内部一开始会有一段和正式表达的内容不相关的“废话”(在术语上叫5' UTR, untranslated region),之后才开始真正要表达成终产物蛋白的部分。在编码区之前有标题一样的启动子启动着整个区域开始转录与否,编码区内部也不是第一个位置就会被之后的翻译表达出来,而是过了一小段之后才开始出现翻译的起点,也就是第一个密码子,起始密码子start codon。启动子的区域吸引来转录的蛋白开启转录,转录出的结果被下一步翻译的蛋白识别时,识别的起始信号就是起始密码子。

图4:像这样首字下沉的排版预示着这里起始本部分。DNA编码区的起始密码子有着一样的预示效果。

我们终于开始津津有味地读起故事来。故事的类型多种多样,结尾也通常是无规律可循的。难道这就意味着我们在读故事集的时候,除了读到下一个故事的标题,就没法分辨出什么时候这个故事结束了吗?显然不是,任何一个有脑子的书都不会把两个故事紧密排版在一起,让我们辨认不出来两个故事。通常书中可能会有空出来部分,一些贴心的书还会在一篇文章的结尾放一个小标记来暗示你本章到此结束。在我们的编码区中,也有同样的设置。而且设置的层级和起始一样,也是两个层级:首先,每个编码区都会有一个终止密码子stop codon,这负责告诉下一步翻译的蛋白:“翻译到这里结束了”(因为未成熟mRNA加工的时候不光在前面“加帽”,还在后面“加尾”);其次,在终止密码子之后还会有一段额外的序列(3’UTR),告诉当前工作的的转录酶要结束收工了。至此,这一段编码区才算是真正的完成,而一个基因也就到此结束了。我们来看一下下面的这个图5,来复习一下上面说到的复杂的过程:

图5:上面是DNA序列,下面是初级未加工的mRNA。DNA中从左至右分别经过了:第一个黄色区增强子/沉默子区域,之后会到达紧挨着编码区的启动子,之后会开始进入编码区。编码区一开始是5'UTR,这一段并不被翻译出来。接着到了翻译的起始位点,起始密码子;走过整个翻译区段后,进入翻译终点:终止密码子。之后开始一小段3' UTR,编码区就结束了。到此,这个基因就完全走完了。这就是一个基因的结构,包含从一开始的增强子/沉默子,启动子,加上编码区。其中增强沉默和启动再加上5' UTR这些不被翻译成终产物的区域又叫做调控序列,而编码区中翻译成蛋白的部分叫做开放阅读框(open reading frame, ORF)。

2020年2月6日02:05:06

有意思的是,表达出了这个初级mRNA之后,表达的重要故事还没有就此结束。

表观遗传就是指不改变DNA序列但是永久的(个体水平的永久,而不是能遗传的永久)改变基因的表达情况。普通的遗传中,我们认为一个基因的遗传效果改变必须通过DNA改变才可以;但是表冠遗传指出,即使基因不发生沉默突变,也可以被永久关闭表达。这种调节方式是通过序列层面以上的层次调控的。你肯定知道DNA在细胞中不是裸露的,而是和组蛋白包裹成核小体。二缠绕成核小体的DNA实际上是处于“难以接近的状态”。一段DNA基因大多时候只能和一个蛋白质结合,如果DNA被组蛋白结合,转录酶就结合不上,转录不会开启,基因就无法表达。这就是基本思想。而组蛋白的亚基上有外延出来的肽链尾巴,其上的氨基酸可以被加上不同的基团被修饰,常见的是甲基化修饰和乙酰化修饰。这些不同的修饰就是给不同的组蛋白打标签,使得这些组蛋白和DNA更加紧密结合,或者更加松弛而脱落,暴露出DNA被转录酶结合。一般的,H3K9位点(这里H和K是氨基酸缩写,3和9是第几个氨基酸)甲基化修饰、H3乙酰化修饰是开启基因;其他位点的甲基化修饰是关闭(一般不会考察这么细节的话,你可以认为甲基化都是关闭)。被甲基化修饰的多个核小体还可以相互继续凝聚,让染色质压缩程度更高,更难松散解开DNA而表达,达到长期关闭一个基因区域的功能。这种染色质上特殊压缩的区域就是异染色质。XX性染色体就会随机完全关闭一个的表达,通过的就是表观遗传。先这样解释吧。其实不难,并且表冠遗传在生物中大量存在。

上一篇下一篇

猜你喜欢

热点阅读