一些需要知道的概念

Genbank:核酸序列Features

2020-04-19  本文已影响0人  yhh_hygge

FEATURES 是非常重要的注释内容,它描述了核酸序列中各个已确定的片段区域,包含 很多子条目,比如来源,启动子,核糖体结合位点等等。

1.原核生物大肠杆菌的基因序列features解读:

大肠杆菌的基因序列 CDS(Coding Segment):编码区

对于原核生物来讲,CDS 记录了一个开放阅读框ORF,从 第 343 个碱基开始的起始密码子 ATG 到第 798 个碱基结束的结束密码子 TAA。除了位置信息,还包括翻译产物的诸多信息。

此外,X01714 这条核酸序列还包含第二个“潜在的”基因,也就是计算机预测出来的 基因。它编码的蛋白目前的数据库里没有详细记录,是个未知的蛋白。

image-20200420152224200

像这样,一条核酸序列包含多个基因的情况在 Genbank 里是很常见的。

ORIGIN 作为最后一个条目记录的是核酸序列,并以双斜线作为整条记录的结束符。至此整条记录就浏览完了。 ORIGIN

有时你可能会想要保存这条序列,但是直接从这里拷贝,序列里既有空格,又有数字, 不是纯序列,手动删除这些又很麻烦。

这时,你可以在这条记录的标题下面找到一个叫做 FASTA 的链接: FASTA 的链接

点击他,你会获得 FASTA 格式的核酸序列。

FASTA 格式的核酸序列

FASTA 格式是最常用的序列书写格式,他由两部分组成。
第一行:以大于号开始。后面接序列的名称或注释
第二行:纯序列部分,每行 60 个字母。(这部分只能写序列,不能有其他内容,比如空格,注释,行号之类的都不能在序列部分出现。)

早期的 FASTA 格式要求序列部分每行 60 个字母。但这个规定早已被打破,每行 80,或每行100都可以。

标题下方,除了 FASTA 链接,还有一个图形化链接: Features 里的注释信息

点击可以看到 Features 里的注释信息以图形的形式更直观的展示出来。

Features 里的注释信息

可以看到这条序列包含的两个基因,他们的启动子的位置,核糖体结合位点的位置等。其中一条基因是编码 dUTPase 的 dUT基因,另一个是编码未知蛋白的潜在的通过计算预测出的基因。

如果想要保存这条记录,最好的方法是像保存 PubMed 文献列表那样,点击发送链接, 然后选择以纯文本文件的形式保存整条记录到本地电脑上。 保存记录

现在我们来看真核生物基因组的DNA序列 (:

2.真核生物人的dUTPase 的成熟 mRNA 序列

Features 里的注释内容与原核生物的数据库记录相似。

人的dUTPase 的成熟 mRNA 序列

这条真核生物序列的 Genbank 注释看起来和原核生物的差不多,这是因为我们很小心的挑了一条成熟 mRNA 的序列。

上一篇下一篇

猜你喜欢

热点阅读