生物信息my RNA-seq

clusterProfiler使用心得(1)

2017-10-18  本文已影响2517人  兔子皮皮

date: 2017.10.18
author: Jinwen

前言

大家都在诟病DAVID而推荐R包clusterProfiler,所以我也跟风……

clusterProfiler依赖于Bioconductor,如果没有安装过Bioconductor系列包,那么首次安装将会经历漫长的安装过程——还是由于网络太厚,本来仅仅几Mb的文件可能跟你耗着。所以安装失败的同学需要注意往前滚动查看文件是否完全下载~

关键参数

如果有兴趣可以好好研究研究clusterProfiler的实例介绍,内容非常详实。这里只是使用过程中的一点儿心得。

GO功能富集分析文中称为GO over-representation test,whatever~然后函数是enrichGO,参数还是有点儿多的,看几个关键的吧:

关于GO level的讨论

当你富集到的GO term过多,那么可以用dropGOgofilter过滤,但这种过滤是以GO level来定义的,也就是只保留某一个level的。

实际上level的划分是不太合理的,就如biostar所讨论的。我们都知道GO实际上是一个树形的结构(有向无环图),包含多个分支,每个分支的层数都不一样,每个GO term可能还被多个分支共享;所以每个GO term并不能简单地通过level(也就是层数)来定义。如果以level来过滤将会损失很多的信息~

所以,一干人等开发了各种衡量GO term相似性的方法,可以参考R包GOSemSim

另外,clusterProfiler也提供了相应的函数simplify对GO term进行去冗余,输入就是enrichGO的结果。

尾声

虽然作者文档非常清晰,但是由于太懒太笨,还是花了不少时间去尝试~

上一篇 下一篇

猜你喜欢

热点阅读