永远热爱

【GEO数据库挖掘】一、了解GEO数据库及数据下载

2022-08-01  本文已影响0人  佳奥

找出文章GSE号,修改后缀即可。

https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE24673

使用RStudio小tips:新建文件夹拷贝project文件可以在R中快速定位文件夹位置。很方便。

1 下载原始数据RAW.tar。

(并不推荐)

image.png

RAW.tar使用affymetix包处理。不同数据库使用的R包也不一样。

2 下载表达矩阵Matrix。

(推荐)

image.png

使用函数读取:

a <- read.table('GSE42872_series_matrix.txt.gz',
                sep = '\t',
                quote = "",
                fill = T,
                comment.char = "!",
                header = T)
##思路怎么来的,如下
##内容空格分隔,read.table、逗号分隔,read.csv、冒号分隔,read.:。详情?read.table

3 在R中直接读取。

(也和网络有关,不过我还是倾向第二种方法,下述代码仅作示例)

##安装包
source("http://www.bioconductor.org/biocLite.R")
biocLite("GEOquery")
library(GEOquery)
##或者用biocoManager安装GEOquery

gset <- getGEO("GSE42589", GSEMatrix=TRUE, ...)

##使用说明
gds858 <- getGEO(‘GDS858’, destdir=“.”) ##根据GDS号来下载数据,下载soft文件
gpl96 <- getGEO(‘GPL96’, destdir=“.”) ##根据GPL号下载的是芯片设计的信息
gse1009 <- getGEO(‘GSE1009’, destdir=“.”)##根据GSE号下载数据,下载_series_matrix.txt.gz

下一篇开始最重要的ID转换。

我们下一篇再见!

上一篇下一篇

猜你喜欢

热点阅读