生物信息学小白生信入门转录组

转录组学习八(功能富集分析)

2018-03-29  本文已影响167人  Dawn_WangTP

转录组学习一(软件安装)
转录组学习二(数据下载)
转录组学习三(数据质控)
转录组学习四(参考基因组及gtf注释探究)
转录组学习五(reads的比对与samtools排序)
转录组学习六(reads计数与标准化)
转录组学习七(差异基因分析)
转录组学习八(功能富集分析)

任务

<font color=orange>GO富集分析</font>

一、bioconductor注释数据库的探究

JIMMY_数据包library(org.Hs.eg.db)简介

library(AnnotationHub)
hub <- AnnotationHub()
# 可以用query()函数来查找你要的物种注释信息
# 选择的格式是OrgDb.
query(hub, "Solanum lycopersicum")
sl <- hub[["AH55774"]] 
library(org.Mm.eg.db)
keytypes(org.Mm.eg.db) ##查看有哪些数据类型,包含着各大主流数据库的数据。
###用select函数,就可以把任意公共数据库的数据进行一一对应。
### keys是原始的ID,columns是转换之后的ID,keytype是要指定的原始ID类型
select(org.Mm.eg.db,keys = "ENSMUSG00000031762",columns = c("SYMBOL","GENENAME","UNIGENE","REFSEQ"),keytype = "ENSEMBL")
diff_gene_DESeq_raw <- subset(res_deseq, padj<0.05 & (log2FoldChange > 1 | log2FoldChange < -1))
diff_gene_DESeq_name <- row.names(diff_gene_DESeq_raw)
diff_gene_DESeq_transID<- select(org.Mm.eg.db, keys= diff_gene_DESeq_name, columns= c("SYMBOL", "GENENAME", "UNIGENE", "REFSEQ"), keystype="ENSEMBL")

image

二、基因GO分析:

利用clusterProfiler的R包进行GO分析

enrichGO(gene, OrgDb, keytype = "ENTREZID", ont = "MF",
  pvalueCutoff = 0.05, pAdjustMethod = "BH", universe, qvalueCutoff = 0.2,
  minGSSize = 10, maxGSSize = 500, readable = FALSE, pool = FALSE)
ego <- enrichGO(gene = row.names(diff_gene_deseq2),  OrgDb = org.Mm.eg.db, keytype = "ENSEMBL", ont = "MF")

###气泡图
dotplot(ego, font)

### 网络图
enrichMap(ego, vertex.label.cex=1.2, layout=igraph::layout.kamada.kawai)

###GO图
plotGOgraph(ego)

image
image
image

三、基因KEGG分析:

diff_gene_deseq2_transID_kegg <- diff_gene_deseq2_transID[,4]
ekegg <- enrichKEGG(diff_gene_deseq2_transID_kegg,keyType = "kegg",organism = "mmu",pvalueCutoff = 0.05,pAdjustMethod = "BH",qvalueCutoff = 0.1)
### 画气泡图:
dotplot(ekegg,font.size=8)

### 显示通路图
browseKEGG(ekegg,'mmu01100')
image
image

<font color=orange>基因集富集分析GSEA</font>

参考文章GSEA分析是个什么鬼?(上), GSEA分析是个什么鬼?(下)。文章将GSEA分析做了详细的揭示,目前仅对看懂的部分做记录,知道有这个分析方法,以后有需要再做详细学习吧

一、基因富集分析概念

二、与通常富集方法GO和KEGG的比较:

三、通常做差异分析设定阈值与后续KEGG与GO分析的问题**:

四、GSEA富集过程的基本步骤

  1. 计算富集分数(Enrichment Score)
  2. 估计富集分数的显著性水平
  3. 矫正多重假设检验
    image
    image

五、基本GSEA分析过程

GSEA_genelist <- diff_gene_deseq2_raw$log2FoldChange ### 对diff_gene的结果进行分析
names(GSEA_genelist)<- rownames(diff_gene_deseq2_raw) ### 设置名字
GSEA_genelist<- sort(GSEA_genelist,decreasing = TRUE) ### 排序


gsem_gene <- gseGO(geneList = GSEA_genelist,OrgDb = org.Mm.eg.db, keyType = "ENSEMBL", ont = "MF")

gseaplot(gsem_gene,geneSetID = "GO:0000977")
image
看不懂在说啥,以后再慢慢研究这一类的图吧。

总结:从2017年10月7日~12月4号,软件安装——数据下载——原始数据的质控——参考基因组与注释GTF文件的探究——READS比对,排序——计数,标准化——差异基因分析——功能富集分析。Linux基本操作、shell脚本编写、Perl脚本编写、软件参数的具体含义了解。两个月的时间终于跟着大神们的步伐将转录组的流程给学习了一遍。途中遇到了不少艰难的事,也花了不少深夜与周末的时间。好在终于把一个个知识点给攻克,一章章的任务分析给坚持了下来。仍然有许多待学习的地方,比如一些软件的进阶参数的选择,结果的更加准确解读,R语言的语法、各种可视化图片的绘制以及如何解读,还有越来越觉得重要的一个大坑:统计学背景知识。这些都将是后续学习的方向。这不是结束,以后还会根据学习到的各种新知识来更好的完善这个分析流程大框架。加油吧。

参考文章

  1. 【基因富集分析_学习笔记】https://mp.weixin.qq.com/s?__biz=MzIwNTEwMTUyOQ==&mid=2649693906&idx=1&sn=341682dad10a9b52f3290239042c30f5&chksm=8f2dbe64b85a3772d3bc439498560ec22638783cb321be71e7ebb383a4de0186b3ea9b384475&scene=21#wechat_redirect
  2. 【PANDA姐的转录组入门(8):差异基因结果注释】https://mp.weixin.qq.com/s?__biz=MzIwNTEwMTUyOQ==&mid=2649694917&idx=1&sn=a318f8cf98f306d46963986011c73600&chksm=8f2d8273b85a0b65270a986f7bb28e8efa7fd15309505a5a026bbedaafaff7e30e4d4f13dd02&scene=21#wechat_redirect
  3. 【(伪)从零开始学转录组(8):富集分析】https://mp.weixin.qq.com/s?__biz=MzI1MjU5MjMzNA==&mid=2247484528&idx=1&sn=3af297d4163a70b049f861fc28c85bc2&chksm=e9e02dd1de97a4c79ab04a2c012ee6fe4b0aae5e1df59bdf2bf6b19e6ac1cb08ce379a6694e8&scene=21#wechat_redirect
  4. 【差异基因结果注释】http://www.jianshu.com/p/4910d7cec5c8
  5. 【GSEA分析是个什么鬼?(上)】https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655753566&idx=2&sn=5b5b2c93a7618a69da2cbc6638f03da0&chksm=80884960b7ffc076af53ae74caadb5dbb25d240c31660792e8727964d0177d6a17af7ca5fc5c&mpshare=1&scene=1&srcid=0816ADpKId3sPzgbYfubrFCf#rd
  6. 【GSEA是个什么鬼?(下)】https://mp.weixin.qq.com/s?__biz=MzAwMzY4MTYxNw==&mid=2655754973&idx=1&sn=3b87d5cb8ddd2d5d77e413e9a87342da&chksm=808846e3b7ffcff5a6b41985b707f52170f20eabe15fc43264b3d14a3ccf4100263789eab856&mpshare=1&scene=1&srcid=0816gHxusewlJeILw0fWxgi3#rd
  7. 【RNA-seq结果图片如何解读?(第一弹)】http://mp.weixin.qq.com/s/OFuP7nGGM3V9ghZ6lI1QuA
  8. 【RNA-seq中GO、KEGG结果图如何解读】http://mp.weixin.qq.com/s/UowQnL4bD7QUFHIXQ_JQKQ
上一篇下一篇

猜你喜欢

热点阅读