Genbank：核酸序列Features

2020-04-19 本文已影响0人 yhh_hygge

FEATURES 是非常重要的注释内容，它描述了核酸序列中各个已确定的片段区域，包含很多子条目，比如来源，启动子，核糖体结合位点等等。

大肠杆菌的基因序列

source 说明了核酸序列的来源，据此可以容易的分辨出这条序列是来源于克隆载体还是基因组。可以看到，当前序列来源于大肠杆菌的基因组 DNA。
在regulatory中
- promoter 列出了启动子的位置。细菌有两个启动子区，-35 区和-10 区。-35 区位于第 286 个碱基到第 291 个碱基，-10 区位于第 310 个碱基到第 316 个碱基。
- RBS 是核糖体结合位点的位置。
misc_feature 列出了一些杂项，比如，这条说明了从第 322 个碱基到第 324 个碱基是一个推测的，无实验证实的转录起始位置。

CDS（Coding Segment）：编码区

对于原核生物来讲，CDS 记录了一个开放阅读框ORF，从第 343 个碱基开始的起始密码子 ATG 到第 798 个碱基结束的结束密码子 TAA。除了位置信息，还包括翻译产物的诸多信息。

此外，X01714 这条核酸序列还包含第二个“潜在的”基因，也就是计算机预测出来的基因。它编码的蛋白目前的数据库里没有详细记录，是个未知的蛋白。

image-20200420152224200

像这样，一条核酸序列包含多个基因的情况在 Genbank 里是很常见的。

ORIGIN 作为最后一个条目记录的是核酸序列，并以双斜线作为整条记录的结束符。至此整条记录就浏览完了。

ORIGIN

有时你可能会想要保存这条序列，但是直接从这里拷贝，序列里既有空格，又有数字，不是纯序列，手动删除这些又很麻烦。

这时，你可以在这条记录的标题下面找到一个叫做 FASTA 的链接：

FASTA 的链接

点击他，你会获得 FASTA 格式的核酸序列。

FASTA 格式的核酸序列

FASTA 格式是最常用的序列书写格式，他由两部分组成。
第一行：以大于号开始。后面接序列的名称或注释
第二行：纯序列部分，每行 60 个字母。（这部分只能写序列，不能有其他内容，比如空格，注释，行号之类的都不能在序列部分出现。）

早期的 FASTA 格式要求序列部分每行 60 个字母。但这个规定早已被打破，每行 80，或每行100都可以。

标题下方，除了 FASTA 链接，还有一个图形化链接：

Features 里的注释信息

点击可以看到 Features 里的注释信息以图形的形式更直观的展示出来。

Features 里的注释信息

可以看到这条序列包含的两个基因，他们的启动子的位置，核糖体结合位点的位置等。其中一条基因是编码 dUTPase 的 dUT基因，另一个是编码未知蛋白的潜在的通过计算预测出的基因。

如果想要保存这条记录，最好的方法是像保存 PubMed 文献列表那样，点击发送链接，然后选择以纯文本文件的形式保存整条记录到本地电脑上。

保存记录

现在我们来看真核生物基因组的DNA序列（：

Features 里的注释内容与原核生物的数据库记录相似。

人的dUTPase 的成熟 mRNA 序列

CDS 指出了从 63 到 821 是一段编码区，在这段编码区里基因是连续的，因为是经过剪切后的成熟 mRNA，它将被翻译成线粒体型 dUTPase 蛋白。
/translation 里给出的是计算机翻译出的该蛋白的序列。
在 Features 里还有两个新的条目sig_peptide 和 mat_peptide之前没有见到过。
- sig_peptide，也就是 signal peptide，指出了编码信号肽的碱基的位置。信号肽决定了蛋白质的亚细胞定位，也就是蛋白质工作的地方。
- mat_peptide，也就是 mature peptide，指出了编码成熟肽链的碱基的位置。他从信号肽后面开始，到编码区结尾提前三个碱基结束。
编码区一直到第 821 号碱基，而编码成熟蛋白的最后一个碱基是第 818 号碱基，这中间差了 3 个碱基，那最后的这三个碱基干嘛去了呢？
- 编码区的最后三个碱基是终止密码子，不翻译。

这条真核生物序列的 Genbank 注释看起来和原核生物的差不多，这是因为我们很小心的挑了一条成熟 mRNA 的序列。