用clusterprofiler包来做基因富集性分析

2018-10-02 本文已影响149人傅小潇

Gene ontology enrichment analysis可能是现在生物信息学里面最常用的分析。以前我一般都是用DAVID这个在线工具来做。但是用DAVID有三个主要问题

DAVID的注释不全，很多基因都没有更新的注释信息
这个是DAVID这个软件的硬伤
DAVID的结果只是列表，并没有好的可视化方式
这样导致每次做基因富集分析的时候都需要去挑选冗余Gene ontology，并且费时耗力的去做文章中需要的可视化图
DAVID只支撑3000个GENE，更多的就罢工了
已经记不得有多少次我的GENE LIST中有3000多个基因，然后还要去做随机筛选的内心小崩溃了

这些问题，在clusterprofiler这个包中都得到了很好的解决。

下面总结下clusterprofiler包的主要功能，参考资料在https://bioconductor.org/packages/release/bioc/vignettes/clusterProfiler/inst/doc/clusterProfiler.html

gene ID转换
支持orgdb的所有物种，以及orgdb所包含的所有gene ID种类
groupGO 函数来将列表中的基因根据相对于的gene ontology进行分类
enrichGO 函数来做gene ontology富集分析
gseGO 函数来做gene set enrichment analysis

为何要用gene set enrichment analysis呢？因为一般做differential expressed genes analysis找出的gene都是有着统计显著差别的单个基因，但是有些基因是属于同一类的(gene set)，它们单个的变化并没有那么大，但是这同一类基因都发生了一些变化。这样，当做DEG分析的时候，找不出这些基因，但是gsea分析可以把这种差异找出来。

这里需要注意一个问题。用这个函数的时候，如果要得到典型的gsea的running enrichment score的图，则必须指定geneSetID。这就需要先找出现在已经富集了几个geneSet，然后一个接一个的画出。

enrichKEGG 函数来做基因的pathway富集分析
完善强大的可视化函数选择，包括了barplot, dotplot, emapplot, cnetplot, gseaplot, browseKEGG
compareCluster 用于比较不同gene list的gene ontology富集情况

用clusterprofiler包来做基因富集性分析

猜你喜欢

热点阅读