入门生物信息学鸡易呕

查找GSE及对应GPL平台,注释包信息后还能画个热图

2019-04-11  本文已影响0人  dandanwu90

以前听GSE号与对应平台GPL号以及注释包,总是不知道为什么要互相对应?咋个对应?今天栽了才知道。我没脸写我是怎么栽的,就写写我栽后是如何正确的做完这道题。

我正在做R语言小作业-中级-第六题

第六题:
下载数据集GSE17215的表达矩阵并且提取下面的基因画热图
ACTR3B ANLN BAG1 BCL2 BIRC5 BLVRA CCNB1 CCNE1 CDC20 CDC6 CDCA1 CDH3 CENPF CEP55 CXXC5 EGFR ERBB2 ESR1 EXO1 FGFR4 FOXA1 FOXC1 GPR160 GRB7 KIF2C KNTC2 KRT14 KRT17 KRT5 MAPT MDM2 MELK MIA MKI67 MLPH MMP11 MYBL2 MYC NAT1 ORC6L PGR PHGDH PTTG1 RRM2 SFRP1 SLC39A6 TMEM45B TYMS UBE2C UBE2T
提示:根据基因名拿到探针ID,缩小表达矩阵绘制热图,没有检查到的基因直接忽略即可。

解题思路: 上述基因名复制粘贴到一个txt保存为Q6.txt-表达矩阵-注释包得到基因名对应的探针名-过滤表达矩阵-热图

1. 下载数据,提取表达矩阵, 查看

#下载
suppressMessages(library(GEOquery))
Q6=getGEO("GSE17215",AnnotGPL = F,getGPL = F)
#提取表达矩阵
Series_m=Q6$GSE17215_series_matrix.txt.gz
Series_m=as.data.frame(exprs(Series_m))
#查看
head(Series_m)
dim(Series_m)
查看表达矩阵.png

查看过程中我发现这探针名(行名)不是我需要的基因名呀,应该是需要注释包来看探针名和基因名的对应关系

2. 注释包(找到探针名和基因名的注释包-筛选我需要的基因对应的表达矩阵)

问题来了,我怎么知道这个表达矩阵所需的是哪个测序平台?用的哪个注释包做的注释?

show(Q6)
平台信息.png

看到Annotation:GPL3921好了就可以去搜索了
【咋搜索的?在哪里?联网-打开浏览器-bing-输入GPL3921-第一条就是GEO Accession viewer-打开就看见下图】

GPL3921.png

3. 回到Rstudio中,下载注释包,读取探针名和基因名的对应关系表

BiocManager::install("hgu133a.db")
suppressMessages(library(hgu133a.db))
#看看里面有什么
keytypes(hgu133a.db)
#读取探针名和基因名的对应关系表
ids=toTable(hgu133aSYMBOL)

4. 读区要选择的基因名,过滤表达矩阵,画图

Q6_gene=read.csv(file="Q6.txt",sep="\t",header = F)
colnames(Q6_gene)="symbol"
Q6_mydata=merge(Q6_gene,ids,by="symbol")

Series_m$probe_id=rownames(Series_m)
Series_m_filter=merge(Q6_mydata,Series_m,by="probe_id")
rownames(Series_m_filter)=Series_m_filter[,1]
Series_m_filter=Series_m_filter[,c(-1,-2)]

library(pheatmap)
pheatmap(Series_m_filter,scale = "row",show_rownames=F,clustering_distance_rows = "correlation")
pheatmap.png
上一篇下一篇

猜你喜欢

热点阅读