转录组学生物数据库orthofinder

【转录组08】功能注释&功能富集

2020-12-15  本文已影响0人  呆呱呱

上一步差异表达分析拿到了表达谱【比如当用药物处理之后,实验组中哪些基因的表达发生了变化】


所谓基因的功能其实是基因产物的功能

GO数据库 Gene Ontology

允许在各种水平查询基因产物的特性
解决生物学定义又混乱的现象,是的各种数据库中基因产物功能描述相一致,使得在不同生物数据库中的查询具有极高的一致性

image.png
w/1240)

栗子:TP53


image.png image.png image.png

Ontology 的结构

image.png image.png

GO term 之间的关系

image.png
image.png
image.png
image.png

KEGG数据库(京都基因和基因组百科全书)

image.png image.png image.png
  • 符号的含义 image.png

  • ID意思


    image.png

功能注释实操

image.png

例子1:查看单个疾病风险基因注释到哪些通路

  1. 神经胶质瘤(Glioma)风险基因(NCBI-GeneID :1956),该基因编码表皮生长因子受体(EGFR)
  2. 进入KEGG搜索界面http://www.genome.jp/kegg/tool/map_pathway2.html
image.png image.png 从KEGG官网点击pathway进入
  1. 选择Organism-specific为:hsa
  2. 选择Optional use of outside类型为:NCBI-GeneID
  3. 输入EGFR基因(如格式:1956 red)


    image.png
从左到右的三列依次是:基因名,通路名字,物种名称 image.png 绿色的方框表示人类所特有的基因
image.png
  1. 神经胶质瘤(Glioma)风险基因(NCBI-GeneID :1956),该基因编码表皮生长因子受体(EGFR)


    三个板块
    image.png
  1. 进入GO界面http://www.geneontology.org/
  2. 输入EGFR基因(格式: EGFR )
  3. 选择Gene Product
  4. 点击Go


    IEA是经过实验验证
    IDA类型是计算机预测的

例子2:查看多个疾病风险基因注释到哪些通路(适用于复杂疾病)

  1. 从通过差异表达分析获得airway数据集trt和untrt间差异表达基因集合:共640个基因


    image.png
  2. 进入KEGG搜索界面http://www.genome.jp/kegg/tool/map_pathway2.html

  3. 选择Organism-specific为:hsa

  4. 选择Optional use of outside类型为:NCBI-GeneID

  5. 输入差异表达基因,格式:19 red

  6. 368 red

  7. 点击Exec

功能富集分析

原因


image.png
统计学方法 image.png

结果可视化




#### 第一步,从org.Hs.eg.db提取ENSG的ID 和GI号对应关系
keytypes(org.Hs.eg.db)

# bitr in clusterProfiler
allID <- bitr(gene_all, fromType = "ENSEMBL", toType = c( "ENTREZID" ), OrgDb = org.Hs.eg.db )
degID <- bitr(DEG, fromType = "ENSEMBL", toType = c( "ENTREZID" ), OrgDb = org.Hs.eg.db )
head(degID)


# KEGG analysis----
enrich <- enrichKEGG(gene =degID[,2],organism='hsa',universe=allID[,2],pvalueCutoff=1,qvalueCutoff=1)
##enrichKEGG只有一句话
##背景基因值的选择会影响最后的P值
GeneRatio <- as.numeric(lapply(strsplit(enrich$GeneRatio,split="/"),function(x) as.numeric(x[1])/as.numeric(x[2])))
BgRatio <- as.numeric(lapply(strsplit(enrich$BgRatio,split="/"),function(x) as.numeric(x[1])/as.numeric(x[2])  ))
enrich_factor <- GeneRatio/BgRatio
out <- data.frame(enrich$ID,enrich$Description,enrich$GeneRatio,enrich$BgRatio,round(enrich_factor,2),enrich$pvalue,enrich$qvalue,enrich$geneID)
colnames(out) <- c("ID","Description","GeneRatio","BgRatio","enrich_factor","pvalue","qvalue","geneID")
write.table(out,"../Analysis/deg_analysis/trut_VS_untrt_enrich_KEGG.xls",row.names = F,sep="\t",quote = F)

out_sig0.05 <- out[out$qvalue<0.05,]  ##挑选过程

# barplot
bar <- barplot(enrich,showCategory=10,title="KEGG Pathway",colorBy="p.adjust")
bar

image.png
上一篇下一篇

猜你喜欢

热点阅读