Clusterprofiler多分组富集分析及可视化
2022-10-13 本文已影响0人
KS科研分享与服务
一般富集分析都是单个组基因集,但是当有多个数据集的时候,一个一个分析比较麻烦,clusterprofile包可以实现多组分析,这里演示一下。我们使用单细胞数据构建一个例子。
setwd("D:/KS项目/公众号文章/多组富集分析")
library(Seurat)
library(SeuratData)
#找一个单细胞数据集
# data("pbmc3k")
# PBMC <- pbmc3k.final
# PBMC = UpdateSeuratObject(object = PBMC)
#找一下各组的差异基因,构建一下数据
# DefaultAssay(PBMC) <- "RNA"
# df <- FindAllMarkers(PBMC, only.pos = TRUE,
# min.pct = 0.25,
# logfc.threshold = 0.75)
# df_sig <- df[df$p_val_adj < 0.05, ]
# write.csv(df_sig, file = "df_sig.csv")
这里利用单细胞构建了一个数据,其他数据构建成如此即可!
library(clusterProfiler)
library(ggplot2)
df_sig <- read.csv("df.csv", header = T)
构建分组,转化genesymbol-gene ID。
group <- data.frame(gene=df_sig$gene,
group=df_sig$cluster)
Gene_ID <- bitr(df_sig$gene, fromType="SYMBOL",
toType="ENTREZID",
OrgDb="org.Hs.eg.db")
#构建文件并分析
data <- merge(Gene_ID,group,by.x='SYMBOL',by.y='gene')
富集分析,去除冗杂terms!
data_GO <- compareCluster(
ENTREZID~group,
data=data,
fun="enrichGO",
OrgDb="org.Hs.eg.db",
ont = "BP",
pAdjustMethod = "BH",
pvalueCutoff = 0.05,
qvalueCutoff = 0.05
)
data_GO_sim <- simplify(data_GO,
cutoff=0.7,
by="p.adjust",
select_fun=min)
dotplot(data_GO_sim, showCategory=5,font.size = 8)
data_GO_sim_fil <- data_GO_sim@compareClusterResult
clusterprofile中自带可视化函数---dotplot,这里我们选择可视化5个term,当然了,默认的图可能不太好修改,我们可以导出数据,在ggplot2中可视化!
image.png每组中挑选需要可视化的terms进行可视化;
df_GO <- read.csv("df_GO.csv", header = T)
library(forcats)
df_GO$Description <- as.factor(df_GO$Description)
df_GO$Description <- fct_inorder(df_GO$Description)
ggplot(df_GO, aes(Cluster, Description)) +
geom_point(aes(fill=p.adjust, size=Count), shape=21)+
theme_bw()+
theme(axis.text.x=element_text(angle=90,hjust = 1,vjust=0.5),
axis.text = element_text(color = 'black', size = 10))+
scale_fill_gradient(low="purple",high="yellow")+
labs(x=NULL,y=NULL)+
coord_flip()
image.png
所有数据及代码已上传QQ群,如果有帮助帮忙点赞分享一下!更多精彩内容请至我的公众号---KS科研分享与服务