生物信息学R生信软件

用clusterprofiler包来做基因富集性分析

2018-10-02  本文已影响149人  傅小潇

Gene ontology enrichment analysis可能是现在生物信息学里面最常用的分析。以前我一般都是用DAVID这个在线工具来做。但是用DAVID有三个主要问题

  1. DAVID的注释不全,很多基因都没有更新的注释信息
    这个是DAVID这个软件的硬伤

  2. DAVID的结果只是列表,并没有好的可视化方式
    这样导致每次做基因富集分析的时候都需要去挑选冗余Gene ontology,并且费时耗力的去做文章中需要的可视化图

  3. DAVID只支撑3000个GENE,更多的就罢工了
    已经记不得有多少次我的GENE LIST中有3000多个基因,然后还要去做随机筛选的内心小崩溃了

这些问题,在clusterprofiler这个包中都得到了很好的解决。

下面总结下clusterprofiler包的主要功能,参考资料在https://bioconductor.org/packages/release/bioc/vignettes/clusterProfiler/inst/doc/clusterProfiler.html

  1. gene ID转换
    支持orgdb的所有物种,以及orgdb所包含的所有gene ID种类

  2. groupGO 函数来将列表中的基因根据相对于的gene ontology进行分类

  3. enrichGO 函数来做gene ontology富集分析

  4. gseGO 函数来做gene set enrichment analysis

为何要用gene set enrichment analysis呢?因为一般做differential expressed genes analysis找出的gene都是有着统计显著差别的单个基因,但是有些基因是属于同一类的(gene set),它们单个的变化并没有那么大,但是这同一类基因都发生了一些变化。这样,当做DEG分析的时候,找不出这些基因,但是gsea分析可以把这种差异找出来。

这里需要注意一个问题。用这个函数的时候,如果要得到典型的gsea的running enrichment score的图,则必须指定geneSetID。这就需要先找出现在已经富集了几个geneSet,然后一个接一个的画出。

  1. enrichKEGG 函数来做基因的pathway富集分析

  2. 完善强大的可视化函数选择,包括了barplot, dotplot, emapplot, cnetplot, gseaplot, browseKEGG

  3. compareCluster 用于比较不同gene list的gene ontology富集情况

上一篇下一篇

猜你喜欢

热点阅读