生物信息学学习

公共数据库挖掘之利用R语言下载并整理GEO数据

2019-05-24  本文已影响2人  秦城听雪

因为是初次利用R包进行下载数据,其中遇到了各种问题,重装了几个R,终于可以顺利下载文件了。现在把过程整理总结如下,其中有问题的地方还希望大家一起讨论。

1.下载GEOquery

刚开始时候我怎么都无法加载GEOquery包。后边发现原因是无法改写系统盘。
可以利用.libPaths()改变包的存储位置。
我将其存储在E盘。

.libPaths("E:/biosoft/R-3.6.0/library")

然后在执行以下命令就正常了。

install.packages("GEOquery")

加载包

library(GEOquery)
library(Biobase)

2.下载并保存数据

options( 'download.file.method.GEOquery' = 'libcurl' ) 
gset <- getGEO('GSE42872',destdir = ".",
               AnnotGPL = F,
               getGPL = F)
save(gset,file = 'GSE42872.gset.Rdata')

3.获得可以进行下游分析的表达矩阵

#取第一个元素
ob=gset[[1]]
#得到其表达矩阵
exprSet=exprs(ob)
##ob
#查看其样本名字
samples=sampleNames(ob)
pdata=pData(ob)
group_list=as.character(pdata[,2])
dim(exprSet)
#查看该表达矩阵的前几行
exprSet[1:5,1:5]

结果截图如下:


image.png

后边的类似的数据下载和处理均可用该方法。

上一篇下一篇

猜你喜欢

热点阅读