精华文章收藏随性

GO,KEGG生物学意义

2019-03-28  本文已影响9人  chaimol

数据库-GO_KEGG-简介

转载自domebtrainee的博客2016-10-07 14:24:54
1、GO(GeneOntology)基因本体论

随着生物信息学的发展,各种数据库应运而生。每一种数据库都有自己的定义、分类,导致同一类的事物在不同的数据库中定义为不同的名字。GO数据库的产生是为了使对各种数据库中基因产物功能描述相一致,也就是将所有的蛋白功能进行分类。最初,即1988年,由三种模式生物(FlyBase (果蝇数据库Drosophila),SaccharomycesGenome Database (酵母基因组数据库SGD) 和Mouse GenomeDatabase (小鼠基因组数据库MGD))的整合开始,经过不断发张扩大,现在已经包含动物、植物、微生物等的104个物种的数据库了,成为了生物信息分析物种注释的必用数据库。

整体来说GO分为三个不同的Ontologies,分别是分子功能(molecular function)、生物学途径(biological process)和细胞组份(cellular component)。每一部分又包含多个子term,分子功能描述在分子生物学上的活性,大部分指的是单个基因产物的功能,还有一小部分是此基因产物形成的复合物的功能,包括antioxidantactivity 、binding等;生物学途径是由分子功能有序地组成的,具有多个步骤的一个过程,如cellular process、cell killing等;细胞组份指基因产物位于何种细胞器或基因产物组中,如membrane、organelle等。每一个部分的term并不都是并列的,子term还可以是另一个子term的父term,即GO的定义是有向无环形式(directed acyclicgraphs,DAGs)的,当某个基因被注释到某个term后,其也获得了此term的上一级即其父term的注解。

2、KEGG(Kyoto Encyclopedia of Genes and Genomes)

京都基因与基因组百科全书,其实就是整合基因组、化学和系统功能信息的数据库。生信分析中,最常用的就是KEGG PATHWAY,代谢通路数据库,以图解的形式展示了细胞生化过程如代谢、膜转运、信号传递、细胞周期子通路等各种信息,比较全面,是一个大的综合的数据库。

整体来说,可分为系统信息、基因组信息和化学信息等几大类,进一步可细分为多个主要的数据库。可以通过不同的颜色编码来区分,如下表所示。

image

KEGG数据库中包含各种各样的数据对象,这些数据对象是为了用来对生物系统进行计算机模拟的。因此,各个数据库中的数据记录都被称为KEGG对象。这些对象可以通过KEGG对象标识符来识别,标识符由一个与数据库相关的前缀加五个数字构成。例如KEGG PATHWAY数据库的对象Pathway map的前缀有map(Reference pathway), ko(Reference pathway), ec(Reference pathway), rn(Reference pathway), org(Organism-specificpathway map),即可由hsa04930表示某个通路。pathway中的每一个框(或线)都对应一个或多个K编号、EC编号及R编号,对于代谢相关的通路,在map中,一个点同时表示一个基因、这个基因编码的酶及这个酶参加的反应;ko通路中的点只表示基因;ec通路中的点只表示相关的酶;rn通路中的点只表示该点参与的某个反应、反应物及反应类型;对于所有的代谢和非代谢通路,K编号都被认为是基因的标识符,这个标识符在每一个物种中对应该物种中的某个基因,从而得到物种特异性的pathway。

KEGG中有一个“专有名词”KO(KEGG Orthology),它是蛋白质(酶)的一个分类体系,序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(或K)标签,一旦基因被分配了KO标识或K编号,通过基因组注释流程,物种特异性的通路图、BRITE功能层次和KEGG模块就可以自动产生了。

image
上一篇下一篇

猜你喜欢

热点阅读