生信自学生信锦囊

【陪你学·生信】三、核苷酸序列数据库的使用(2)

2020-09-08  本文已影响0人  番茄随笔

二、使用GenBank

1. 针对原核生物基因的GenBank使用介绍

原核生物基因组相对小,而且DNA序列,mRNA,ORFs,蛋白序列对应关系相对简单,所以数据库中原核生物的基因组注释等信息较为易懂。下面依旧以大肠杆菌dUTPase基因为例(GenBank ID X01714),介绍GenBank中原核生物基因的一些条目和操作。

(1)打开网页

https://www.ncbi.nlm.nih.gov/genbank/

(2)在检索栏里,选择Nucleotide库,输入GenBank ID X01714

(3)这个页面差不多显示了全部的信息,默认格式是GenBank的,有一些方便的功能按钮,比如这里是format的选择,可以以FASTA格式显示。右侧send to可以下载文件。

(4)结果显示页面出现的名词介绍

在GenBank格式的结果显示页面左侧,有一系列条目,简单介绍一下它们是什么。

【LOCUS】

基础信息,包含名称代号(X01714),核苷酸序列大小(1609 bp),类型(DNA),拓扑结构(linear),上传/修改时间(BCT 23-OCT-2008)。

【DEFINITION】

对于该基因的简短定义。

【ACCESSION】

就是accession number,登记号。

【VERSION】

同义或过去使用过的ID号。

【KEYWORDS】

描述该序列的关键词,检索的时候如果设定了关键词,就可以搜到这些基因。

【SOURCE】

序列的来源。

【ORGANISM】

将序列来源生物体按照生物分类,详细的写出来。属于【SOURCE】条目的补充。

【REFERENCE】

这里面序列不同的部分归功于的不同AUTHORS,TITLE,JOURNAL和PUBMED(我看到的基因序列一般都不分,序列很多很大的,可能是工作分为几次完成的,这里就会注明)。

【COMMENT】

这里有一些致谢等不适合放在上面条目中的内容,属于补充说明。

【FEATURES】

这个条目下细致的展示了序列中确定的,有着不同生物学功能的基因区域。

[source]

显示的是基因序列中特殊区域的来源。当你想区分克隆载体序列和受体生物序列时,这个条目就比较重要,不过在我们的例子中,所有序列都来源于大肠杆菌。

[regulatory]

这里会注明什么类型的regulatory,比如RBS或者启动子,并且注明位置。

/regulatory_class="ribosome_binding_site"

/regulatory_class="promoter"

[misc_feature]

假定的转录开始区域,或者茎环结构区域等。

/note="put. transcription start region"

/note="put.stem-loop structure"

[CDS]

CDS:CoDing Segment,该条目描述了基因的开放阅读框ORF的信息。

首先是ORF的位置,从起始密码子的位置到终止密码子(343..798);下面是起始密码子开始的位置,“/codon_start=1”说明序列343位置的氨基酸是起始密码子的第一个氨基酸;/transl_table=11说明翻译的标准是11那套标准,即针对“The Bacterial, Archaeal and Plant Plastid Code”的翻译标准。

然后显示了蛋白质的ID,以及这个蛋白在其他数据库中的信息的超链接。

最后 /translation,是按照上面介绍的起始密码子终止密码子位置和翻译标准,机器翻译的氨基酸序列。

上一篇下一篇

猜你喜欢

热点阅读