基因结构
一、基因结构包括编码区(CDS)和非编码区
1. 编码区
编码区:不连续的基因结构,包含外显子和内含子,它们交替出现。CDS序列以ATG开始,起始密码子只有这一个,并且在外显子中。
(1)外显子:编码区中不连续的具有蛋白编码功能的DNA序列。第一个外显子的头部是蛋白翻译的起始密码子;最后一个外显子的尾部是终止密码子。
(2)内含子:编码区中外显子之间间隔的非编码序列。
外显子与内含子的邻接部位是一段高度保守的序列:外显子尾巴与下一个内含子的头部多数是GT,内含子的尾巴与下一个外显子的头部多数是AG,可以简单记做GT-AG法则,作为RNA剪切的识别信号。
DNA→ pre-mRNA(mRNA前体)→ mRNA,其中pre-mRNA中包括了外显子和内含子,成熟的mRNA只剩外显子。
(3)开放阅读框(ORF):从DNA的起始密码子(ATG)到终止密码子(TAA、TGA、TAG)的碱基序列,且不包含终止密码子。
2. 非编码区
非编码区:又叫侧翼序列(flank),是编码区第一个外显子和最后一个外显子之间以外的区域,这个区域中包含了启动子、终止子、增强子等调控元件。一个基因中有外显子和内含子,但是基因和基因也不是连续的,它们之间的区域就不是内含子了,而是叫做基因区间,同样属于非编码序列。
(1)上游侧翼:第一个外显子以外的序列,包含启动子区域。
启动子(promoter):与RNA聚合酶特异性结合。启动子虽然感觉和起始相关,但是它既不属于外显子也不属于内含子,它是非编码区序列
TATA 框:第一个外显子的5'转录起始位点(TSS)上游大约20-30个碱基的位置,是TATA box,包含的碱基位置是TATAATAAT,保证RNA聚合酶可以准确识别转录起始位点并开始转录过程。总而言之,它影响转录起始。
CAAT 框:第一个外显子的5'转录起始位点上游大约70-80个碱基的位置,是CAAT box,包含的碱基位置是GGCTCAATCT,它是另一个RNA聚合酶的结合位点,它不影响转录起始,但可以控制转录起始频率。另外CAAT box两侧是GC box,包含的碱基是GGCGGG,起到转录调节、激活转录的功能。
增强子:一般位于TSS上游大约100个碱基以外,具有增强转录的作用,但是不用于启动基因转录。
沉默子:抑制DNA的转录过程,从而抑制翻译,最常见是位于启动子上游。有时也会出现在启动子下游、基因本身内含子或外显子上;另外在下游侧翼的3'非翻译区也发现了沉默子。
(2)下游侧翼:最后一个外显子以外的序列,包含终止子序列。
首先在最后一个外显子的终止密码子下游有一个AATAAA序列,这个序列主要参与mRNA 的多聚腺苷酸化过程。多聚腺苷酸化就是得到polyA尾巴之前,mRNA的3'端会水解掉10-15个碱基。这个序列的作用就是作为RNA裂解的信号,指导核酸内切酶在此信号下游10~15碱基处裂解 mRNA。之后就是聚合酶作用使得3'端加上polyA变成成熟mRNA。
AATAAA序列再往下到转录终止位点(TTS)之前,是一个反向重复序列(7-20个碱基对),转录后形成一个发卡结构,可以阻碍RNA聚合酶移动,终止转录。
注意:起始密码子和终止密码子都在外显子上,位于编码区;但是,转录起始位点TSS和转录终止位点TTS都在非编码区,TSS在启动子区下游&起始密码子上游,TTS在终止子区下游&终止密码子下游。
二、RNA进化过程中的结构变化
(1) pre-mRNA → mature mRNA:pre-mRNA(前体mRNA)就是从转录起始位点TSS到终止位点TTS,还需要进行内含子剪切,5'加帽子结构,3'加PolyA修饰,才可以形成成熟mRNA。
(2)mature mRNA:包括编码区、5'UTR、3'UTR、5'帽子结构、3'polyA尾。
UTR:mRNA两端的非编码序列。UTR在DNA序列中算是外显子exon的部分。
5'UTR:上游非编码区,位于5'帽子与起始密码子(AUG)之间
3'UTR:下游非编码区,位于编码区末端的终止密码子到3’尾巴之间
5'帽子:作用就是帮助mRNA跨过核膜,进入胞质,并且此过程中保护5‘不被降解;翻译时保证IFiii和核糖体识别。
3’poly-A尾巴:作用也是帮助mRNA跨过核膜,进入胞质,并且增加了mRNA在胞质中存在的稳定性。因为mRNA的降解过程是随着时间延长,A尾逐渐变短。
单顺反子mRNA:只编码一个蛋白的mRNA。
多顺反子mRNA:编码多个蛋白。
三、CDS、cDNA、ORF等等傻傻分不清
真核生物:
下面先从真核生物开始,小编在网上找了个图片,希望原作者不要见怪。
图片大多数真核基因都是由蛋白质编码序列和非蛋白质编码序列两部分组成的。基因中的编码序列称为外显子(exon),而基因中的非编码序列称为内含子(intron)。在一个结构基因中,编码某一蛋白质不同区域的各个外显子并不是连续地排列在一起的,而是常常被长度不同的内含子所隔离,形成镶嵌排列的断裂方式。
我们常说的“基因”严格来讲是指:负载特定生物遗传信息,能够产生一条多肽链或功能RNA所必需的DNA分子片段,不但包括编码区,还包括5'-端和3'-端两侧特异性序列,虽然这些序列不编码氨基酸,但在基因表达的过程中起着重要的作用。
1. mRNA:
大家平时接触较多的转录组测得是mRNA,并不是严格意义上的基因,而是基因信息的载体,称作Messenger RNA (mRNA)--信使核糖核酸,如下如所示:
图片真核生物mRNA一般由5′端帽子结构、5′端UTR区、编码区、3′端UTR区和3′端聚腺苷酸尾巴构成,真核生物mRNA通常都有相应的前体。从DNA转录产生的原始转录产物可称作 原始前体(或mRNA前体)。一般认为原始前体要经过hnRNA核不均-RNA的阶段,最终才被加工为成熟的mRNA。所以,生物汪嘴里经常说的什么启动子、增强子、沉默子、顺式作用元件等都是DNA序列上的结构概念,mRNA里面是不包含的!
2. cDNA:
cDNA是以mRNA为模板,在适当引物的存在下,由mRNA经过反转录而得到的DNA,是mRNA链互补的DNA链,其内部已无内含子等结构,值得说明的是,目前火热的二代测序均是先将RNA反转录组成cDNA再进行测序的。
3. CDS与ORF:
这是一个经常被人混淆的两个概念;
- CDS是Coding sequence的缩写,是指编码一段蛋白产物的序列,是与蛋白质密码子一一对应的序列,注意其与mRNA序列的差异;
- ORF是open reading frame的缩写,翻译成开放阅读框,是指从一个起始密码子开始到一个终止密码子结束的一段序列,但并不是所有读码框都能表达出蛋白产物;CDS必定是一个ORF,但也可能包括多个ORF,相反,每个ORF不一定都是CDS。
4. 单拷贝基因与基因家族
单拷贝基因指在基因组中只出现一次,多是编码蛋白质的基因,真核生物中有25%~50%的基因是以单个基因存在的,而其余编码蛋白质的基因以基因家族形式存在;基因家族是来源于同一个祖先,由一个基因通过基因重复而产生两个或更多的拷贝而构成的一组基因,它们在结构和功能上具有明显的相似性,编码相似的蛋白质产物。
5. 假基因
假基因也叫伪基因,他是基因家族在进化过程中形成的无功能的残留物。它与正常基因相似,但丧失正常功能的DNA序列,往往存在于真核生物的多基因家族中,一般情况都不被转录,且没有明确生理意义。
原核生物:
原核基因组结构较真核生物要简单很多,一般只有一个环状的DNA分子,基因组中无内含子,少有的重复序列,多为单拷贝基因。
原核生物( 包括病毒) 的mRNA 多是多顺反子,即可以有几个基因同时被转录成一个mRNA,共同使用一个启动调控区,而真核生物多是单顺反子,即一次只转录出一个基因;原核生物mRNA与真核不同,无5′端帽子结构和3′端聚腺苷酸尾巴。
参考:
https://www.jianshu.com/p/cc5cd7053d6e
https://blog.csdn.net/qq_36608036/article/details/100690940
http://www.360doc.com/content/19/0415/11/52645714_828900304.shtml