网络药理学生物信息2020生物信息学

一些GO及KEGG分析的知识

2020-05-03  本文已影响0人  Peng_001

参考:https://www.omicshare.com/forum/thread-826-1-2.html
https://www.omicshare.com/forum/thread-955-1-1.html
https://www.jianshu.com/p/13f46bebebd4

Gene Ontology(简称GO)是一个国际标准化的基因功能分类体系,提供了一套动态更新的标准词汇表(controlled vocabulary)来全面描述生物体中基因和基因产物的属性。GO总共有三个ontology(本体),分别描述基因的分子功能(molecular function)、细胞组分(cellular component)、参与的生物过程(biological process)。GO的基本单位是term(词条、节点),每个term都对应一个属性。

KEGG(Kyoto Encyclopedia of Genes and Genomes)数据库是系统地分析基因功能、链接基因组信息和功能信息的数据库,包括代谢通路(pathway)数据库、分层分类数据库、基因数据库、基因组数据库等。KEGG的pathway数据库是应用最广泛的代谢通路公共数据库。

每个基因都会对应一个或者多个GO term。而一般研究富集会涉及两个概念:前景基因和背景基因。1)前景基因指研究者关注的重点研究的基因集,而2)背景基因指所有的基因。比如通过实验比较实验组与对照组的转录组测序,前景基因就是对照组vs处理组的差异基因,背景基因就是这两个样本表达的全部基因。

富集就是为了比较某个GO term在所关注的前景基因中的占比是否要显著高于在所有背景基因中占有的比例。而这个的证明就是通过显著性来评判。

比较深圳市(前景基因)与整个广东省(背景基因)的大学生(某个GO term)的占比,即相比广东省,大学生的数量所占的比例,在深圳市是否更多。而最终求得的占比数值,则通过比较以证明显著性

先用个形象的例子来理解超几何分布:在超市抽奖,要求从商品(N)中抽取奖品(n),不放回抽取,其中抽得的商品内有指定奖品(M),测定可以抽中指定奖品(k)的概率。

类似的,在GO分析中:

N为数据库中具有GO注释的所有基因数,n为N中具有差异表达的基因数;
M为数据库中注释为某GO term的基因数目,k为注释为某特定GO term 的差异基因数。

KEGG通路中对富集的计算也十分类似。

KEGG 通路富集与GO富集类似,分别指,差异基因(n)中注释到某个代谢通路(pathwayX)的基因数目(k)比例与所有背景基因(N)中注释到某个代谢通路(pathwayX)的基因数目(M)。

因此通过上述一顿操作猛如虎后的,即可得到基因n是否在M/k 类中富集(N)的概率(P)。

既然P-value 针对的是极端情况,那就让情况更极端一些好了。


图片来自简书用户:井底蛙蛙呱呱呱

即从总的基因N(背景基因)中抽取n个基因(前景基因),其中由i个基因落在符合条件的总的M个基因里。而之前的式子所讨论的概率运算,则正是i=k/m 时的情况下,求得的概率。
为了验证这一概率是否具备显著性,就索性计算 (k/m ~ M)这段更加极端的概率之和,最终得到的P越小,则检验结果越显著。(P<0.5, P<0.1……)

上一篇 下一篇

猜你喜欢

热点阅读