RNA-seq1 生物信息学科研 博士

生物数据库ID,让我深入了解你🧐

2018-10-16  本文已影响74人  刘小泽

刘小泽写于18.10.15
内容很多,资料就准备消化了一上午,写了一下午+一晚上~开心搞定

基因的身份实在太多,因为每个数据库都想有自己的独到之处,因此我们有必要对这么多基因的ID进行分类整理,分清主次才能从容应对

不要被吓到哦

这是一张生物数据库网络图,上百种ID乍一看杂乱无章,但是仔细一看,主要靠的就是灰色背景的这三大数据库:NCBI的Entrez、Ensembl、Uniprot;蓝色背景数据库是目前比较主流的数据库,如RefSeq、GenBank、dbSNP、GO、KEGG等,与三大数据库有数据交换;没有背景的就是主流数据库产生的各种ID,包括了我们日常经常使用的HGNC ID、PubmedID、Pfam ID、UCSC ID、RefSeq ID、Enzyme ID、GO term、KEGG patheway等,另外还有一些物种专属数据库ID,比如WormBase ID、TAIR ID、FlyBase ID等

生物数据库网络图

下面就层层递进来介绍这些主要的数据库
先了解数据库,再了解ID,效果更好哦

第一级 三大数据库

1 NCBI家的Entrez

1.1 历史背景

先搞清楚:NCBI是一个组织,Entrez是它的搜索系统

NCBI是美国国立生物技术信息中心(National Center for BiotechnologyInformation),由美国国立卫生研究院(NIH)于1988年创办,目的是为生物学家提供一个信息储存和处理的系统。它建立了自己的核酸序列数据库GenBank,与日本的DDBJ(1986年创办)、欧洲分子生物学实验室的EMBL数据库(1982年创办)等联合存储。东西一样但命名各异。

如果要在NCBI中检索信息(基因序列、基因组、基因型、基因表达、分子结构、蛋白质组学、文献等等),就需要用到Entrez的综合检索系统。
Entrez的第一个版本由NCBI于1991年在CD -ROM上发布,当时核酸序列来自GenBank和Protein Data Bank(PDB)数据库,蛋白序列来自GenBank、Protein Information Resource (PIR)、SWISS-PROT、PDB以及Protein Research Foundation (PRF)数据库,还从MEDLINE数据库(现在是PubMed)整合了文献摘要。

1.2 内容

2 Ensembl

2.1 背景知识

Ensembl项目始于1999年,也就是人类基因组草案完成前几年,由英国的Sanger研究所以及欧洲生物信息学研究所(EMBI-EBI)联合共同协作开发。发展的起因是手动注释30亿个碱基序列对数据的时效性考验,于是Ensembl想要自动注释基因组,并将注释和其他可用的生物数据相结合。2000年7月上线网站,侧重于脊椎动物的基因组数据,但后来逐步丰富了其他生物如线虫,酵母,拟南芥和水稻等。

大多数物种需要三到六个月才能使用Ensembl自动注释系统进行注释,这个过程是这样的:整合Uniprot KB的蛋白信息与NCBI RefSeq里面的mRNA信息,再加上人工注释【人工注释在VEGA和Havana数据中可以找到】

关于自动注释和人工注释:自动注释很快,但是它是基于概率的过程,不一定完全准确;人工成本就比较高,但准确度也高


两种注释
2.2 内容

FTP下载内容:https://asia.ensembl.org/info/data/ftp/index.html

3 Uniprot

3.1 背景知识

它是Universal Protein的简写,整合了Swiss-Prot、TrEMBL和PIR-PSD三大数据库,含有最丰富的蛋白质数据。通过Uniprot 数据库,我们可以了解编码蛋白的基因,对应的蛋白名称, 序列,以及GO注释(GO ID、GO的描述信息、分类这些信息是经常需要用的)

另外还有:

3.2 内容

这些数据来源是:基因组测序项目完成后获得的蛋白质序列


第二级 主流数据库

基础数据库

HGNC

官网 https://www.genenames.org/
整个数据地址在:ftp://ftp.ebi.ac.uk/pub/databases/genenames/new/tsv/hgnc_complete_set.txt

我们常说的“TP53”、“BRCA1”等就是官方认证的基因名

早在20世纪60年代研究者就已经认识到人类遗传学命名的问题,1979年在爱丁堡人类基因组会议(HGM)上提出了人类基因命名的完整指南。HGNC由美国国家人类基因组研究所(NHGRI)和 Wellcome Trust(英国)共同资助,其中的每个基因只有一个批准的基因symbol。2007年9月,HGNC迁至欧洲生物信息学研究所(EBI),加入PANDA(蛋白质和核苷酸数据库)小组

目前已经批准了近33000个symbol,绝大部分是蛋白编码基因,当然也包括假基因,非编码RNA,表型和基因组特征的symbol

这里列出了HGNC的统计数据http://www.genenames.org/cgi-bin/statistics

目前总共有41506个认证的基因symbol
编码蛋白的有19198个(大多有GO注释)
非编码RNA共7375个,包括lnc、micro、smallRNA等
假基因13188个;免疫相关、病毒相关基因有1174个

HGNC会根据不同类型的基因,提供不同的参考数据库:

GeneCards

官网 https://www.genecards.org/

它真的很好的表达了“不生产数据,只运输数据”的理念,绝对的低调奢华有内涵。

低调的Genecards

它是由Crown HumanGenome Center创办并更新维护的人类基因数据库,整合了125个左右的数据库资料,涵盖了基因组、转录组、蛋白组、临床、功能信息等

从上往下,往细了说就是:
1 全称、属性(编码蛋白、基因簇、假基因等);
2 通用名、其他数据库ID号;
3 来自多个数据库对主要功能描述;
4 基因组相关信息:位置、DNA序列、转录因子、调控元件、表观遗传、甲基化;
5 蛋白相关:亚型、大小、二三级结构、翻译后修饰、蛋白抗体;
6 蛋白结构域及家族信息;
7 基因功能:GO、表型、互作miRNA、动物模型、siRNA、基因克隆、原位杂交
8 通路及互作蛋白;
9 相关药物与化合物;
10 转录本信息;
11 表达量:芯片、RNA、SAGE、共表达:
12 不同物种保守性
13 旁系同源基因、假基因
14 SNP与疾病相关
15 相关疾病
16 相关文献
17 外部其他100多个数据库链接

GenBank

官网 https://www.ncbi.nlm.nih.gov/genbank/
文件下载:ftp://ftp.ncbi.nlm.nih.gov/genbank

它是NIH(National Institute of Health)附属的注释核酸数据库,两个月一次更新。刚开始1982年release3包含606条序列,共680338个碱基。现在已经到了227版。来源也扩充到了260000+物种,其中最多的是人类(约13%)

主要包括:

一般我们下载核酸数据,都会发现有两个选项:FASTA和GenBank。FASTA只记录基因的精简信息,用ATCG表示出核苷酸序列就好了;而GenBank可以表示比较完整的基因序列信息


genbank vs fasta
RefSeq

官网 https://www.ncbi.nlm.nih.gov/refseq/

参考序列数据库,包含具有生物意义的非冗余基因、转录本和蛋白质序列,经过NCBI及其他组织的校正,使用HGNC指定的标准名。这里的序列,就是可以用来对照的,其中包含染色体、基因组、RNA、蛋白等。

RefSeq与GenBank的不同就是:

每个条目的后面都会有状态信息:PROVISIONAL REVIEWED表示已被人工审核;PREDICTED表示没有经过审核;MODEL表示是由NCBI自动提交的,未经审核;INFERRED表示由序列预测得到的,没有实验验证,VALIDATED初步审查过,但还没最终审查

NR与NT

下载地址 ftp://ftp.ncbi.nih.gov/blast/db,解压缩后构建索引文件即可

NR:非冗余蛋白库 Non-Redundant Protein Sequence Database,包括所有的GenBank+EMBL+DDBJ+PDB中的非冗余蛋白序列。它以核酸序列为基础进行交叉索引,将核酸与蛋白质联系起来。对于已知的或可能的编码序列,NR记录中都给出了相应的氨基酸序列(由读码框推断)。

NT:核酸序列数据库(Nucleotide Sequence Database),是NR库的子集

dbSNP

官网 http://www.ncbi.nlm.nih.gov/SNP/
数据库 https://ftp.ncbi.nih.gov/snp/

SNP是单核苷酸多态性,就是DNA序列中一个特定位点出现两个或者多个A、T、C、G的改变,这种多态性占所有已知多态性的90%以上。人类基因组中平均500-1000个碱基对就有1个SNP,目前发现了大概400万个SNPs。

单核苷酸多态性数据库是由NCBI与人类基因组研究所(National Human Genome Research Institute)合作建立的,起初的目的是对GenBank提供补充,后来并入了Entrez系统,可以直接查询。主要记录了单碱基替换、插入、缺失的情况。

数据库中最有用的目录是:

Taxonomy

下载地址 https://ftp.ncbi.nih.gov/pub/taxonomy/

分类数据库

重要的三个文件:

Taxonomy分类数据库

专用数据库

GO

官网 www.geneontology.org/

这是一个强调基因产物功能的数据库,并非基因序列或基因产物数据库。

它建立的初衷是为了减少生物学定义的混乱,为了对各种数据库中基因产物功能的描述打造成一致的结果。项目最初是由1988年对三个模式生物数据库的整合开始:: FlyBase (果蝇数据库Drosophila),t Saccharomyces Genome Database (酵母基因组数据库SGD) and the Mouse Genome Database (小鼠基因组数据库MGD),现在已包含数十个动物、植物、微生物的数据库。它由国家人类基因组研究所 (NHGRI)以及欧盟RTD项目赞助,免费使用但必须引用基因本体联合会。

它的组织形式就是三级结构的标准语言,也叫做本体论(Ontology):

GO中的术语是如何与相对应的基因产物联系的呢?这就要靠参与合作的数据库来完成,它们使用GO的定义方法,对基因产物(基因编码的RNA或蛋白质)标注并提供理论支撑,并给出基因产物和GO术语联系的数据库(当然术语不能太长,能粗略估计就好)。这样可以帮助判断蛋白结构域功能,预测某种疾病相关基因,分析发育过程中共表达基因,找到某些异常表达基因的功能相关性等。

GO推荐的注释是针对基因产物的而不是基因的,因为一个基因可能编码多个具有很不相同性质的产物,这样有助于更好地阐明基因产物和GO术语之间的联系。

需要注意的是,GO注释都是反映的正常情况下的基因产物的功能,不包括突变或者病变的情况

GO数据有三种格式:flat(每日更新)、XML(每月更新)和MySQL(每月更新)

KEGG

官网 http://www.kegg.jp/

全称是:Kyoto Encyclopedia of Genes and Genomes,大概可以分为系统信息、基因组信息、化学信息和健康信息四大类,共包含了17个主要的数据库,是生物体代谢网络分析重要的工具。其中最核心的是KEGG Pathway数据库,又分为3个层级:

基于KEGG注释结果,可以快速寻找某类功能的基因,同时构建代谢通路图;并且将各步反应催化的酶的信息进行标注,还加上了氨基酸序列信息,支持链接到PDB

GEO数据库

官网 https://www.ncbi.nlm.nih.gov/geo/
快速查找GEO:https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE17708 (只要将17708换成其他数字即可抵达)

随着测序技术越来越先进,数据产量也越来越大,NCBI为了整合零散的基因表达数据,开始了基因表达汇编计划,建立了最大最全面的基因表达数据仓库(Gene Expression Omnibus)。

数据来源可以是芯片数据、SAGE、高通量测序mRNA、lncRNA等

数据存放:四种类型GSE、GSM、GPL、GDS

数据下载:利用R包GEOquerygetGEO函数

OMIM数据库

官网 https://www.omim.org/

20世纪60年代,Dr. VictorA. McKusick发起建立人类孟德尔遗传的知识库,希望通过书籍出版的方式传播孟德尔遗传的表型性状和基因的知识。1995年,OMIM由国家生物技术信息中心NCBI为web开发

它的全称是:Online Mendelian Inheritance in Man(在线人类孟德尔遗传),截止2018年10月13日共收录了24705个词条,主要包括15981个基因词条和5337个已知分子机制的表型词条,包含了有关所有已知孟德尔病症

主要根据OMIM号左上角的符号区分:
*表示基因,如*113705
+表示基因与表型组合,如+133430
#表示已知分子机制的表型,如#114480
%表示未知分子机制表型,如%607086

输入一个基因(不区分大小写),就会检索相应的词条:

OMIM数据库
ClinVar

官网 https://www.ncbi.nlm.nih.gov/clinvar/
数据库 ftp://ftp.ncbi.nlm.nih.gov/pub/clinvar/

NCBI维护的与疾病相关的人类基因组变异数据库,整合了dbSNP、dbVar、Pubmed、OMIM等多个数据库,整理出变异、临床表型、实验数据、功能注释的信息,并且经过专家评审。因此ClinVar中有的,dsSNP中也有

系统采用星标打分,评估某个特定突变在疾病中的注释。四星等级最高,表示这个突变经过了大多数专家的认可;而没有星的,一般就是没有实验验证,不能提供理论支持。

clinvar的注释,可以寻找出对应的基因变异信息,发生频率,表型,临床意义,评审状态以及染色体位置等。


第三级 ID

之前在“一个萝卜一个坑https://www.jianshu.com/p/8ad714617fca”中提到了一些,比如Entrez ID、Ensembl ID等,这次再进行一个补充

BRCA1基因ID示例 ID数据库来源
BRCA1 HGNC gene symbol
1100 HGNC ID
672 Entrez ID, NCBI
ENSG00000012048 Ensembl
NC_000017.11 RefSeq, NCBI
P38398 UniProt, accession number
BRCA1_HUMAN UniProtKB/Swiss-Prot, entry name
Gene Symbol 命名

【最容易辨认】全部由大写字母(或加数字)构成;当然也有HGNC自家的纯数字ID

Entrez ID 命名

【最广泛使用】纯数字表示,并且【再次提醒:不同物种的基因ID是不同的!】
多种工具支持Entrez ID与其他ID相互转变,除了clusterProfiler,还有ensembl下属的biomart

Emsembl ID命名

根据不同物种设置的前缀 + 数据类型(基因/蛋白质)+ 一系列的数字(例如版本号就以小数点体现)

2-3个月更新一次,目前是version 94。可以保证大多数情况下每次更新后名称保持稳定;
但是如果是数据自身发生变动(比如转录本更改),虽然主要ID信息不变,但是会增加小数,代表版本号。只有当变动特别大,比如重新组装基因组,才会更改整体名称。可以通过Ensembl的history ID来查看历史版本

Ensembl物种前缀 名称
ENS Homo sapiens (Human)
ENSMUS Mus musculus (Mouse)
ENSRNO Rattus nornegicus (Rat)
ENSCAF Canis lupus familiaris (Dog)
ENSDAR Danio rerio (Zebrafish)
FB Drosophila melanogaster (Fruitfly)
ENSXET Xenopus tropicalis (Xenopus)
Ensembl类型前缀 名称
E exon
G gene
P protein
T transcript
FM Ensembl protein
R regulatory feature
GT gene tree
RefSeq ID 命名

模式是:两个大写字母+一个下划线+大于6个数字

RefSeq前缀 类型 说明
AC_ Genomic Complete, alternate assembly
NC_ Genomic Complete, reference assembly
NG_ Genomic Incomplete genomic region
NT_ Genomic Contig or scaffold, clone-based or WGS
NW_ Genomic Contig or scaffold, primarily WGS
NS_ Genomic Environmental sequence
NZ_ Genomic Unfinished WGS
NR_ RNA
NM_ mRNA
XM_ mRNA Predicted model
XR_ RNA Predicted model
AP_ Protein Annotated on alternate assembly
NP_ Protein Associated with an NM_ or NC_ accession
YP_ Protein
XP_ Protein Associated with XM_
ZP_ Protein Associated with NZ_
GenBank ID

【逐渐被refseq替代】AC号或者GI号
AC号:一般是一个大写字母加5个以上的数字,或者两个大写字母加上6个数字的组合
gi(GeneInfo identifier)号:只是一串数字,与AC号没关系

当数据发生变动,AC号主体不动,像ensembl一样更改小数点后的数字;而gi号会全部变动

UniprotKB ID

每个收录的数据都有一个唯一的Entry name或者Accession number。
Entry name最多支持11个字符的字母+数字的格式。命名方式是:“X_Y” 的形式,X是最多五个便于记忆的蛋白质编号,Y是最多五个便于记忆的物种编号,例如:
蛋白质/基因缩写+下划线+物种编码(属名前3个字母+种名前2个字母)

Accession number是最稳定的ID形式,并且唯一

蛋白编号 蛋白名称 基因名称
CAD17 cadherin-17 CDH17
HBA Hemoglobin subunit alpha HBA1
BRCA1 Breast cancer type 1 susceptibility protein BRCA1
物种编号 物种
HUMAN Homo sapiens
RAT Rat
PEA Garden pea
SNP ID 命名

命名并不统一,NCBI中对所有提交的snp进行分类考证之后,都会给出一个rs号,也就是参考snp,并且会给出相关的snp信息,包括前后序列、位置信息、分布频率等。一般的命名是:feature ID后面加7-8位数字,如rs12345678或者dbSNP|rs12345678

USCS ID

其实之前还有uscs的数据,uc+3位数字+3位字母但是现在已经差不多被放弃


参考:

  1. https://www.ncbi.nlm.nih.gov/books/NBK143764/
  2. https://asia.ensembl.org/info/about/index.html
  3. https://guangchuangyu.github.io/cn/2017/03/bed%E6%96%87%E4%BB%B6/
  4. 关于HGNC的ID转换https://www.jianshu.com/p/07663121c0d0
  5. 关于GO:http://fhqdddddd.blog.163.com/blog/static/1869915420128289474633/
  6. 关于refseq http://liucheng.name/379/
  7. 关于dbSNP http://blog.sina.com.cn/s/blog_751bd9440102w6rm.html
  8. 直播基因组67: clinvar数据库
  9. 重新了解一下clinvar数据库 https://mp.weixin.qq.com/s?src=11&timestamp=1539611864&ver=1184&signature=iPRDX8lNVuGrNwemlfTeXXrSxOOly802EBhgYP0DgHtW2WqnxJVQ*GXTsW0mYAxn57EZAnXog29Tg08hit7exmHprwqJuBLt-NoBC8ahcSuFzhl2uNl1Ek2tIfZpCZYP&new=1

欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!
上一篇下一篇

猜你喜欢

热点阅读