【陪你学·生信】三、核苷酸序列数据库的使用（1）

2020-09-04 本文已影响0人番茄随笔

这章内容将介绍如何使用GenBank。

此数据库是国际协作核酸序列数据库（INSDC）的一部分，由美国国家生物技术信息中心（NCBI）主管，NCBI为美国国立卫生研究院的下属机构。

GenBank和它的合作者（DNA DataBank of Japan (DDBJ), European Nucleotide Archive (ENA)和GenBank of NCBI）从全球各个实验室接收了超过百万种生物的数据。

一、基本生物学概念

在使用数据库之前，我们先来看看基因，基因组的生物学概念。

生物中基因都是核苷酸序列构成的，但是在原核和真核生物中，他们差别较大。

1. 原核生物和古细菌

对于生信分析，原核生物和古细菌是很相似的（相比于真核生物），常常会把两个数据放在一起。它们有如下特点：

（1）它们都是微生物。

（2）遗传物质是单一环状DNA分子。

（3）基因组大小约为几百万个碱基对。

（4）它们的基因密度大约为每1,000个碱基对一个基因。

（5）基因几乎没有冗余，70%可编码蛋白质。

（6）基因不重叠。

（7）启动子之后就是转录区域。

（8）无内含子。

（9）蛋白质序列从最长的开放阅读框翻译而来（从ATG到终止密码子）。

图1简单的展示了细菌基因组，转录本（mRNA），开放阅读框（ORF）和蛋白质（核糖体结合位点（Ribosome Binding Site,RBS））。mRNA序列中RBS之后的部分会被翻译为蛋白质。

由于这些特质，所以原核生物的数据库中，一般包含三个重要信息，即启动子、RBS、ORF边界的位置。

2. 真核生物

真核生物包括很多，小到酵母，大到树木、鲸鱼等。虽然真核生物体千差万别，但是它们的基因组也有一些共性，以及一些给生信分析带来困难的性质。

（1）基因组由多条染色体组成

（2）基因组非常大（1000万到6700亿碱基对）

（3）基因密度100,100碱基对一个基因

（4）在人类基因组中，小于5%的基因编码蛋白质

（5）基因可能重叠

（6）也是在启动子后开始转录，但是距离很远的一些序列也可能干扰这个过程。

（7）基因序列与产生的mRNA，蛋白质不一一对应，只有小部分外显子对应。

（8）基因通常编码一种以上的mRNA（蛋白质）。

基于真核生物基因序列与mRNA，蛋白质之间复杂多变的对应关系，数据库中的条目会更多。

前期相关推送