生物信息常用数据库
NCBI
National Center for Biotechnology Information:美国国立生物技术信息中心,包含PubMed、GenBank、RefSeq、GEO这些数据库;搜索引擎:Entrez;比对工具:BLAST
详细介绍:除了建有GenBank核酸序列数据库(该数据库的数据资源来自全球几大DNA数据库,其中包括日本DNA数据库DDBJ、欧洲分子生物学实验室数据库EMBL以及其它几个知名科研机构)之外,NCBI还可以提供众多功能强大的数据检索与分析工具。目前,NCBI提供的资源有Entrez、Entrez Programming Utilities、MyNCBI、PubMed、PubMed Central、EntrezGene、NCBI Taxonomy Browser、BLAST、BLAST Link (BLink)、ElectronicPCR等共计36种功能,
RefSeq: 基因数据库(参考序列):RefSeq数据库被设计成每个人类位点挑出一个代表序列来减少重复,是NCBI提供的校正的序列数据和相关的信息。数据库包括构建的基因组contig、mRNA、蛋白和整个染色体。refseq序列是NCBI筛选过的非冗余数据库,一般可信度比较高。
GenBank: 是核苷酸数据库
GenBank属于一个序列数据库的国际合作组织,包括EMBL和DDBJ。
genbank的数据可能重复或者不准
GEO
Gene Expression Omnibus database (GEO)是由NCBI负责维护的一个数据库,设计初衷是为了收集整理各种表达芯片数据,但是后来也加入了甲基化芯片,lncRNA,miRNA,CNV芯片等各种芯片,甚至高通量测序数据!
GEO Platform (GPL) 芯片平台
GEO Sample (GSM) 样本ID号
GEO Series (GSE) study的ID号
GEO Dataset (GDS) 数据集的ID号
Entrez
Entrez是一个综合性生物信息数据检索引擎,包含核酸、蛋白质、基因、基因组、GEO、pubMed等很多常用的数据库,可以将其类比为百度,正如百度也有百度图片、百度新闻、百度文库、百度学术等等子项目一样。我们需要搜索什么样的信息就使用相应的子数据库,也可以直接在Entrez中搜索,那么Entrez将给出所有数据库中的检索信息。
实际上我们说去NCBI上检索一下时所称呼的NCBI往往就是指的Entrez,因为NCBI实际上是一个组织,而Entrez是一个综合的生信检索引擎。
TP53基因在NCBI的entrez系统代号是 7157
Entrez:是NCBI信息检索系统
GenBank:是检索的数据库
RefSeq:其中一个收录注释过的非冗余转录体、蛋白质和基因组序列数据库。
PubMed:搜索文献
BLAST:序列比对
EBI
欧洲生物信息学研究所(EMBL-EBI),是欧洲分子生物学实验室(EMBL)的一部分,EMBL-EBI维护世界上最广泛的分子数据库。
协调搜集和传播生物学数据的欧洲节点,包括:EMBL-Bank(DNA和RNA序列)、Ensemble(基因组)、ArrayExpress(基于微阵列的基因表达数据)、UniProt(蛋白质序列)、InterPro(蛋白家族、域和基序)、Reactome(传导通路)和ChEBI(小分子),新的资源帮助研究者不仅了解构成生物体的分子部件,还了解这些部件是如何组合构成系统的。
Ensembl
Ensemble (ensembl.org网站是常用真核生物参考基因组来源之一 )能够对人类基因自动进行注释,包括人类,小鼠,斑马鱼,猪和大鼠等,也包括来自HAVANA的人工注释信息。
Ensembl是一项生物信息学研究计划,旨在开发种能够对真核生物基因组进行自动注释(automatic annotation)并加以维护的软件系统。该计划由英国Sanger研究所Wellcome基金会及欧洲分子生物学实验室所属分部欧洲生物信息学研究所共同协作运营。
UCSC
UCSC是生物领域里常用的数据库之一,由University of California Santa Cruz (UCSC)创立和维护,主要包含了人类、小鼠、果蝇等多种常见动物的基因组信息。UCSC里也包括了一系列的分析工具,帮助用户浏览基因信息、查看已有基因组注释信息和下载基因序列等。
在生物信息分析过程中,有时会需要fasta、GTF或BED等格式的数据文件,而UCSC是这些文件的主要下载来源之一。本文主要以人的基因组信息为例讲述如何在UCSC上下载想要的数据库和交叉数据库。
Ensembl的注释相对更加准确,基因更多;
推荐人鼠用GENCODE,谁让它出自最权威的ENCODE呢,其他物种用Ensembl。
Ensembl和UCSC是最为常用基因组检索数据库,参考基因组下载地方
UniProt
Universal Protein:信息最丰富、资源最广的蛋白质数据库,它由整合Swiss-Prot、 TrEMBL 和 PIR-PSD 三大数据库的数据而成;SwissProt是人工校对过的,TrEMBL是自动校对的。
GenBank是核苷酸数据库,RefSeq是基因数据库,UniProt是蛋白质数据库
Genecard
是人类基因的综合数据库,提供简明的基因组,蛋白质组,转录,遗传和功能上所有已知和预测的人类基因。GeneCards中的信息功能信息包括指向疾病的关系,突变和多态性,基因表达,基因功能,途径,蛋白质与蛋白质相互作用,相关的药物及化合物和切割等先进的研究抗体的试剂和工具等,重组蛋白,克隆,表达分析和RNAi试剂等。
查找其它基因名
一个可搜索的综合数据库,它自动整合约125个网络来源的基因的数据(包括基因组,转录组学,蛋白质组学等)
如果要看基因的序列,我们可以去NCBI,UCSC和ENsembl;如果要看这个基因的蛋白功能,那可以去uniprot, 一个网站可以把基因的这些信息汇总到一起 GeneCards
TCGA
肿瘤基因组图谱(The Cancer Genome Atlas - Cancer Genome)是美国国家癌症研究所(NCI)和国家人类基因组研究所(NHGRI)已生成的33种癌症的基因组的关键变化全方位,多组学之间的合作的TCGA数据集,有助于癌症研究界,提高预防,诊断,和治疗癌症。
主要是提供癌症测序数据下载
** TCGA数据分析网站 **:
gepia:http://gepia.cancer-pku.cn/
cbioportal:http://www.cbioportal.org/
TCGA level-3的数据下载:
http://gdac.broadinstitute.org
GTEx portal
Genotype-Tissue Expression:人类组织转录组的表达谱数据,正常人的各个tissue的RNA-seq表达数据;
由650名已故成年献血者的全基因组序列和RNA序列组成,每个捐献者收集了51个组织样本(肺、脑、胰腺、皮肤等),以研究遗传变异与基因表达之间的关系;该计划由美国NIH于2010年启动,旨在理解健康人群不同组织中基因调控机制,以及与疾病相关突变等方面的分子机制。