【陪你学·生信】三、核苷酸序列数据库的使用(1)
这章内容将介绍如何使用GenBank。
此数据库是国际协作核酸序列数据库(INSDC)的一部分,由美国国家生物技术信息中心(NCBI)主管,NCBI为美国国立卫生研究院的下属机构。
GenBank和它的合作者(DNA DataBank of Japan (DDBJ), European Nucleotide Archive (ENA)和GenBank of NCBI)从全球各个实验室接收了超过百万种生物的数据。
一、基本生物学概念
在使用数据库之前,我们先来看看基因,基因组的生物学概念。
生物中基因都是核苷酸序列构成的,但是在原核和真核生物中,他们差别较大。
1. 原核生物和古细菌
对于生信分析,原核生物和古细菌是很相似的(相比于真核生物),常常会把两个数据放在一起。它们有如下特点:
(1)它们都是微生物。
(2)遗传物质是单一环状DNA分子。
(3)基因组大小约为几百万个碱基对。
(4)它们的基因密度大约为每1,000个碱基对一个基因。
(5)基因几乎没有冗余,70%可编码蛋白质。
(6)基因不重叠。
(7)启动子之后就是转录区域。
(8)无内含子。
(9)蛋白质序列从最长的开放阅读框翻译而来(从ATG到终止密码子)。
图1简单的展示了细菌基因组,转录本(mRNA),开放阅读框(ORF)和蛋白质(核糖体结合位点(Ribosome Binding Site,RBS))。mRNA序列中RBS之后的部分会被翻译为蛋白质。
由于这些特质,所以原核生物的数据库中,一般包含三个重要信息,即启动子、RBS、ORF边界的位置。
2. 真核生物
真核生物包括很多,小到酵母,大到树木、鲸鱼等。虽然真核生物体千差万别,但是它们的基因组也有一些共性,以及一些给生信分析带来困难的性质。
(1)基因组由多条染色体组成
(2)基因组非常大(1000万到6700亿碱基对)
(3)基因密度100,100碱基对一个基因
(4)在人类基因组中,小于5%的基因编码蛋白质
(5)基因可能重叠
(6)也是在启动子后开始转录,但是距离很远的一些序列也可能干扰这个过程。
(7)基因序列与产生的mRNA,蛋白质不一一对应,只有小部分外显子对应。
(8)基因通常编码一种以上的mRNA(蛋白质)。
基于真核生物基因序列与mRNA,蛋白质之间复杂多变的对应关系,数据库中的条目会更多。
前期相关推送