转录组数据库的基本使用(一)-GO数据库
转录组数据库的基本使用(一)-GO数据库
转录组数据库有哪些?
目前在对转录组数据进行分析的时候,很多测序公司通常使用以下数据库:
GOhttp://www.geneontology.org
KEGGhttp://www.genome.jp/kegg/
NRftp://ftp.ncbi.nih.gov/blast/db
SwissProthttp://web.expasy.org/docs/swiss-prot_guideline.html
COGhttp://www.ncbi.nlm.nih.gov/COG
Pfamhttp://pfam.xfam.org/
后续会对这类数据库进行一一解释,查漏补缺
其中我们最常用来进行转录组分析的有GO和KEGG两个数据库,本文主要介绍GO数据库。
1.什么是GO数据库?
(Gene Ontology, http://www.geneontology.org)数据库由基因本体论联合会建立,该数据库将全世界所有与基因有关的研究结果进行分类汇总。对不同数据库中关于基因和基因产物的生物学术语进行标准化,对基因和蛋白功能进行统一的限定和描述。
利用GO数据库,可以在以下三个方面对基因和基因产物进行分类注释。
BP:Biological Process, 生物过程
MF:Molecular Function, 分子功能
CC:Cellular Component, 细胞组分
在这三个大分支下面又分很多小层级(level),level级别数字越大,功能描述越细致。最顶层的三大分支视为level1,之后的分级依次为level2,level3和level4。通过GO注释,可以大致了解某个物种的全部基因产物的功能分类情况。
2.GO数据库的术语形式是什么?
GO定义的术语具有有向无环性(directed acyclic graphs ,DAGs)的特点,而并非是传统的等级制定义方式(随着代数增加,下一级比上一级更为具体)。
不理解有向无环没关系,这里给大家举个例子:
植物中有一个生物学途径叫做己糖合成,它的上一级为己糖代谢和单糖合成。当转录组数据中某个基因被注释为“己糖合成活性”后,它自动地获得了己糖代谢和单糖合成地注解。因为在GO中,每个术语必须遵循“真途径”法则,即如果下一代的术语可以用于描述此基因产物,其上一代术语也可以适用。
GO有向无环图里有很多箭头,每种箭头都具有不同的含义。
字符含义箭头符号示例此外,箭头也具有导向性。例如线粒体(A)是细胞质(B)的一部分,细胞质又是细胞(C)的一部分,从而推导出:线粒体(A)是细胞(C)的一部分。
所有推导的结果箭头都以虚线表示,其他箭头导向性关系可以参考下面这张图。
箭头导向性图如需转载引用,请标明出处。