富集分析TCGA生信

RNA-seq学习:No.6富集分析--GESA

2020-03-17  本文已影响0人  小贝学生信

如前所说,过表达富集分析有不少缺点。因此以GSEA为代表的FCS方法也是人们所倾向的选择。接下来将简单了解下方法原理,并利用差异分析数据实操一遍~

1、基础知识

GSEA,gene set enrichment analysis 属于第二代富集分析方法--FCS(Functional Class Scoring)功能集打分的范畴。

(1) 原始分析数据

为差异分析所得到的所有有效结果(不需要过滤),取其中的的基因名(需要是ENTREZID格式)与log2FoldChange列,并按照log2FoldChange值进行从大到小的排序;所得到的基因列表即是GSEA分析所需要的。(顶部可以看做是上调的差异基因,而底部是下调的差异基因)

(2)GSEA的假设检验

(3)富集分数ES(Enrichment score)

2、R包分析

基因列表准备

如上所述,GSEA分析的基因名格式需要为ENTREZID格式,并且不知由于什么原因我之前得到得316个原始ENSEMBL差异基因仅转换成267个ENTREZID格式基因(之前做过表达基因也是的),这就给取数据带来一点麻烦。

mydata=read.table("results.csv",header=TRUE,
                  sep=",",stringsAsFactors=FALSE)
gene=data.frame(mydata$X,mydata$log2FoldChange,stringsAsFactors=FALSE)
names(gene)[1]="ENSEMBL"  #修改列名,后续合并表格需要
library(org.Hs.eg.db)  #使用select()函数转换ID
geneID=select(org.Hs.eg.db,keys=mydata$X,columns="ENTREZID",keytype="ENSEMBL")
geneID=na.omit(geneID)  #仅有267个了
library(dplyr)
tmp=left_join(geneID,gene,by="ENSEMBL")
genelist=tmp$mydata.log2FoldChange
names(genelist)=tmp$ENTREZID
head(genelist)
genelist_sort=sort(genelist,decreasing = T)
head(genelist_sort)

以上我们就取得了按照log2FoldChange降序排列的差异基因列表(267个)


head(genelist_sort)

2.1 GO 基因集

library(clusterProfiler)
go.BP <- gseGO(genelist_sort ,
                   ont = "BP", 
                   OrgDb = org.Hs.eg.db,
                   minGSSize    = 10,  #设置基因集范围
                   maxGSSize = 500,
                   pvalueCutoff = 1)
dim(go.BP)
go.BP.df=as.data.frame(go.BP)
gseaplot(go.BP,geneSetID = "GO:0007610")

如下图,可分为两个部分

2.2 KEGG 基因集

kegg <- gseKEGG(genelist_sort ,
              organism     = 'hsa',
              nPerm        = 1000,
              minGSSize    = 10,
              maxGSSize = 500,
              pvalueCutoff = 1,
              verbose      = FALSE)
dim(kegg)
kegg.df=as.data.frame(kegg)

结果仅发现两个富集pathway结果,而且只有第一个的p值还有点可靠(0.12),画个图看看吧~


hsa01100

以上就是GSEA分析的一些认识与操作,当然也有一些在线工具可以可以使用。重在理解与过表达分析的区别,从上面过程来看基因表达值的属性信息(log2FoldChange), 而且以待测基因功能整体为对象来进行检验的, 也使得检验结果更加灵敏,但也存在一些不足,这里就不叙述啦,详见参考链接。


参考文章
1、功能富集分析概述 - 简书
2、刘小泽学习GSEA - 简书
3、GSEA分析结果详细解读 - 简书

上一篇下一篇

猜你喜欢

热点阅读