注释数据库(KEGG & GO)
2018-05-20 本文已影响54人
Thinkando
1. KEGG
1.1 KEGG的产生
- 如何借助计算机全面地展示细胞和生物所包含的生物学信息是后基因组时代的重要挑战
- 科学家期望能够根据基因组中的信息,用计算机计算或者预测出比较复杂的细胞中的通路或者生物的复杂行为
出于上述目的, 日本京都大学生物信息学中心的Kanahisa 实验室于1995年建立了生物信息学数据库KEGG
1.2 KEGG 简介
- 全称 Kyoto Encyclopedia of Genes and Genomes
- 京都基因与基因组百科全书
- 网址: http://www.genome.jp/kegg/
- FTP: ftp://ftp.genmome.jp/pub/kegg/ (用于大数据挖掘,方便数据下载)
1.3 KEGG 数据库特点
- KEGG 是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一
- 人工创建了一个知识库,这个知识库是基于使用一种可计算的形式捕捉和组织实验得到的知识而形成的系统功能知识库。它是一个生物系统的计算机模拟
- 与其他数据库相比,KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其所要研究的代谢途径有一个直观全面的了解
1.4 数据库构成
-
KEGG 是一个综合数据库, 它们大致分为系统信息、基因组信息、化学信息和健康信息四大类。进一步可细分为17个主要的数据库。可以通过不同的颜色编码来区分
patheay 只是KEGG数据库,系统功能的一个小分支
1.5 KEGG对象标识符
- 数据库中包含各种各样的数据对象,这些数据对象是为了用来对生物系统进行计算机模拟的。因此,各个数据库中的数据记录都被称为KEGG对象。
-
这些对象可以通过KEGG对象标识符来识别,标识符由一个与数据库相关的前缀加五个数字构成
image.png
1.6 KEGG pathway 数据库
- KEGG PATHWAY 数据库是一个手工画的代谢通路的集合, 包含以下几方面的分子间相互作用和反应网络
- 新陈代谢
- 遗传信息加工
- 环境信息加工
- 细胞过程
- 生物体系统
- 人类疾病
- 药物开发
1.7 基因通路图怎么看
2 基因本体论(gene ontology, GO)
2.1 基因本体论
- 生物学上定义混乱,导致不同的生物学数据库可能会使用不同的术语
- GO 是基因本体联合会(Gene Ontology Consortium)所建立的数据库,旨在建立一个适用各种物种的、对基因和蛋白功能进行限定和描述的,并能随着研究不断深入和更新的语义词汇标准
GO 就是为了使各个数据库中基因产物功能描述相一致而发起的一个项目
- GO 提供了一系列的语义(terms)来描述基因、基因产物的特性。这些语义分为三种不同的种类:
- 细胞学组分(cellular components)
- 分子功能 (molecular functions)
- 生物学过程 (biological process)
2.2 GO 分类的定义
- 细胞分组
- 细胞中的位置,指基因产物位于何种细胞器或者基因产物组中(如核糖体,蛋白酶体等)
- 分子功能
- 分子功能描述在分子生物学上的活性,如催化活性或结合活性。
- GO分子功能用来定义功能而不是整体的分子,而且不特异地指出这些功能具体的时空信息
- 生物学过程
- 生物学过程是指由分子功能有序地组成的,具有多个步骤的一个过程。
- 一个生物学过程不完全和一哥生物学通路相等
2.3 本体论语义(GO term)之间的关系
image.pngimage.png
- GO 的结构可以用图表示,其中语义表示为结点,之间的关系为边
- GO term 之间的关系为单向的,但是可以有多个父/子结点
- 类似于有向非循环,距离根结点越近其含义越概括
2.4 GO 注释(Annotation)
- 为了将GO术语与相对应的基因产物相联系,各个合作数据库都会对不同物种所包含的基因产物进行注释,并提供注释参考和证据
- 每个基因都会有与之对应的一列GO术语
- 一个基因产物可以被一种本体论定义的多种分支或者多种水平注释
- 注释需要反映在正常情况下此基因产物的功能,生物过程,定位等,而不包括其在病例情况下或者突变情况下的情况
GO联合会的各个数据库成员采用手动或者自动的方式生成注释,这两种方式共有的原理是:
- 素有注释都需要有开源
- 注释必须提供支持基因产物与GO术语之间的联系证据