【GEO数据库挖掘】一、了解GEO数据库及数据下载
2022-08-01 本文已影响0人
佳奥
找出文章GSE号,修改后缀即可。
https://www.ncbi.nlm.nih.gov/geo/query/acc.cgi?acc=GSE24673
使用RStudio小tips:新建文件夹拷贝project文件可以在R中快速定位文件夹位置。很方便。
1 下载原始数据RAW.tar。
(并不推荐)
image.pngRAW.tar使用affymetix包处理。不同数据库使用的R包也不一样。
2 下载表达矩阵Matrix。
(推荐)
image.png使用函数读取:
a <- read.table('GSE42872_series_matrix.txt.gz',
sep = '\t',
quote = "",
fill = T,
comment.char = "!",
header = T)
##思路怎么来的,如下
##内容空格分隔,read.table、逗号分隔,read.csv、冒号分隔,read.:。详情?read.table
3 在R中直接读取。
(也和网络有关,不过我还是倾向第二种方法,下述代码仅作示例)
##安装包
source("http://www.bioconductor.org/biocLite.R")
biocLite("GEOquery")
library(GEOquery)
##或者用biocoManager安装GEOquery
gset <- getGEO("GSE42589", GSEMatrix=TRUE, ...)
##使用说明
gds858 <- getGEO(‘GDS858’, destdir=“.”) ##根据GDS号来下载数据,下载soft文件
gpl96 <- getGEO(‘GPL96’, destdir=“.”) ##根据GPL号下载的是芯片设计的信息
gse1009 <- getGEO(‘GSE1009’, destdir=“.”)##根据GSE号下载数据,下载_series_matrix.txt.gz
下一篇开始最重要的ID转换。
我们下一篇再见!