GO富集分析(转载)
GO富集介绍
每个基因都会对应有一个或多个GO term(也就是GO功能)。
富集涉及到两个概念:前景基因和背景基因。前景基因就是你关注的要重点研究的基因集,背景基因就是所有的基因集。比如做两个样本对照组和处理组的转录组测序,前景基因就是对照组vs处理组的差异基因,背景基因就是这两组样本的所有表达基因。再比如,我想知道与整个广东省相比,深圳市的大学生是不是显著更多(“大学生”就相当于深圳市民的其中一个GO term)。那么前景就是深圳市的人口,背景就是广东省的人口,每个个体都会有一个标签(如大学生、中学生、小学生等)。
具体介绍:
Gene Ontology分为分子功能,生物过程和细胞组成三个部分。蛋白质或者基因可以通过ID对应或者序列注释的方法找到与之对应的GO号,而GO号可对应到Term,即功能类别或者细胞定位。这也是GO富集的一个基础。
概念明晰:
功能富集需要有一个参考数据集,通过该项分析可以找出在统计上显著富集的GO Term。该功能或者定位有可能与研究的目的有关。
GO功能分类是在某一功能层次上统计蛋白或者基因的数目或组成,往往是在GO的第二层次。此外也有研究者挑选一些Term,而后统计直接对应到该Term的基因或蛋白数。结果一般以柱状图或者饼图表
为什么做基因富集分析?
我们在得到相关基因的表达后,做基因差异分析得到了好多差异基因(p值小的,也就是差异很显著的基因),做后续研究时不可能将所有差异基因都拿来做实验验证或者拿出来说明问题,这时候就需要挑选了,那怎么挑选呢?或者说拿什么标准来衡量我挑选的基因是否可信,有一个统一的挑选标准吗?
这就是富集分析需要做的,能够给出的结果。
富集分析一般包括以下步骤:
1.GO分析
根据挑选出的差异基因,计算这些差异基因同GO 分类中某(几)个特定的分支的超几何分布关系,GO 分析会对每个有差异基因存在的GO 返回一个p-value,小的p 值表示差异基因在该GO 中出现了富集。
GO 分析对实验结果有提示的作用,通过差异基因的GO 分析,可以找到富集差异基因的GO分类条目,寻找不同样品的差异基因可能和哪些基因功能的改变有关。
2.Pathway分析
根据挑选出的差异基因,计算这些差异基因同Pathway 的超几何分布关系,Pathway 分析会对每个有差异基因存在的pathway 返回一个p-value,小的p 值表示差异基因在该pathway 中出现了富集。
pathway 分析对实验结果有提示的作用,通过差异基因的Pathway 分析,可以找到富集差异基因的Pathway 条目,寻找不同样品的差异基因可能和哪些细胞通路的改变有关。与GO 分析不同,pathway 分析的结果更显得间接,这是因为,pathway 是蛋白质之间的相互作用,pathway 的变化可以由参与这条pathway 途径的蛋白的表达量或者蛋白的活性改变而引起。而通过芯片结果得到的是编码这些蛋白质的mRNA 表达量的变化。从mRNA 到蛋白表达还要经过microRNA 调控,翻译调控,翻译后修饰(如糖基化,磷酸化),蛋白运输等一系列的调控过程,mRNA 表达量和蛋白表达量之间往往不具有线性关系,因此mRNA 的改变不一定意味着蛋白表达量的改变。
同时也应注意到,在某些pathway 中,如EGF/EGFR 通路,细胞可以在维持蛋白量不变的情况下,通过蛋白磷酸化程度的改变(调节蛋白的活性)来调节这条通路。所以芯片数据pathway 分析的结果需要有后期蛋白质功能实验的支持,如Western blot/ELISA,IHC(免疫组化),over expression(过表达),RNAi(RNA 干扰),knockout(基因敲除),trans gene(转基因)等。
3.基因网络分析
目的:根据文献,数据库和已知的pathway 寻找基因编码的蛋白之间的相互关系(不超过1000 个基因)。
GO数据的分析
GO官网的Term enrichment services提供丰富的GO terms分析,可以帮助研究者找到所提交的基因集中是否具有共同的GO术语或者有共同的上级GO术语(某些基因都在某个GO术语子集里),以帮助发现哪些输入基因可能具有某些共同特点(比如说都在某个催化反应中起作用,都是某类细胞器的组成成分,都在某个通路里执行功能等)。
当然,也许我们发现了(获得了)一些基因,想知道他在某一个物种里在哪些部分发挥功能,他在GO术语库中归属于哪一个目录层次,这时GO富集就起作用了。
到哪里找呢?
打开GO的官网tools菜单栏里边选择对应的工具即可,如下图所示:
实例展示
以下为实例展示GO数据库自带富集功能,以具体感觉富集的含义:
下面以一份蛋白质ID集为例,命名为protein.txt,格式为每行一个蛋白质ID,
分别使用GO官网提供的两个在线分析工具(下图蓝线)展示
740.jpg
展示一:GO slimmer
设置如下:
840.jpg
上述设置你要研究的目标基因或基因产物集(protein.txt),基因ID的格式为UniProtKB,要研究的GO参考集(背景集)是宏基因GO条目,提交,等待结果。
结果展示:
940.jpg
生物过程、细胞组分或者分子功能三大类里的GO术语选一个,
选择后具体信息如下:
术语信息:
640.jpg
本术语相关的术语:
640 (1).jpg
可以用不同形式展示,选择图表展示(graph view)如下:
740.jpg
在QuickGO里边查看:
子术语(Child Terms),注释等条目也都会一一列出来,更多信息各位可以自己去试试,在此以祖先图表(Ancestor Chart)为例展示:
可以看到祖先图表(Ancestor Chart)一栏,点选表格选项(chart options)可以看到更详细的图标内容,如下:
90.jpg
局部放大如下:
91.jpg
可以看到各个GO term子集的GO ID以及GO功能,连线的不同颜色代表不同的隶属关系,方框中的颜色条也代表不同物种等属性,这个具体的说明图例已经给出来了,如下:
92.jpg
展示二:Enrichment analysis
93.jpg提交,结果如下:
点选图标,可以以图表格式查看,比如选择通路(pathway)
94.jpg
可以看到protein.txt里的蛋白质在这么多通路中起作用,最显著的是黄颜色这个蛋白质,可以说显著表达了。
其他的选项比如功能分类:
666.jpg
Protein.txt里的蛋白主要还是起结合蛋白作用(对应归类到binding这一GO术语中)的。GO数据库提供了其他几项选项,想要详细了解的可以自己试一下。
总结
Gene Ontology(GO)包含了基因参与的生物过程,所处的细胞位置,发挥的分子功能三方面功能信息,并将概念粗细不同的功能概念组织成DAG(有向无环图)的结构。GO常用于提供基因功能分类标签和基因功能研究的背景知识。利用GO的知识体系和结构特点,旨在发掘与基因差异表达现象关联的单个特征基因功能类或多个特征功能类的组合。
GO富集可以提供基因差异筛选的候选集,也可以帮助了解前景基因集在功能上的富集,得出基因潜在的可能功能。可以帮助研究者找到所提交的基因集中是否具有共同的GO术语或者有共同的上级GO术语(某些基因都在某个GO术语子集里),以帮助发现哪些输入基因可能具有某些共同特点(比如说都在某个催化反应中起作用,都是某类细胞器的组成成分,都在某个通路里执行功能等)。
原文:GO富集分析