geo数据库

2024-07-23  本文已影响0人  看远方的星

GEO,全称 Gene Expression Omnibus(基因表达综合数据库),网址∶ https∶/ww.ncbinlm.nih.gov/geo/,是由美国国立生物技术信息中心 ( National Center for Biotechnology Information,NCBD于2000年创建并维护至今的高通量基因表达数据库。

GEO是一个国际公共存储库,收录并整理了全球范围内研究工作者上传的微阵列芯片、二代测序以及其他形式的高通量基因组数据,并提供免费下载。

GEO数据有两种存储形式

组织结构从大到小:

GEO的研究数据类型:

数据类型有9种,以芯片为主,例如RNA、甲基化和SNP芯片数据等。也包括很多高通量测序数据。

高通量测序数据,原始数据存储在SRA,处理后数据则存储在GEO中。

在使用GEO数据时,千万不要忘记注明引用该数据文献的PMID编号!


image.png

下载数据

使用R语言下载:

library(GEOquery)
GSE57820 <- getGEO("GSE57820", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)
# 支持多种编号下载:GSE57820、
# # destdir设置当前目录,getGPL 和AnnotGPL都设置TRUE,可以下载和获得平台的注释文件

利用GDS号下载

 GDS6100 <- getGEO("GDS6100", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

利用GSM号下载(单样本的表达数据):

 GSM1394594 <- getGEO("GSM1394594", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

利用GPL号下载:

 GPL10558 <- getGEO("GPL10558", GSEMatrix =TRUE, destdir = ".", getGPL = T, AnnotGPL = T)

针对芯片平台,利用GPL号下载得到的数据是芯片的设计和注释信息,可以获得探针组和基因的对应关系。

参考文章

https://www.sohu.com/a/583980773_121118947
https://www.cnblogs.com/yahengwang/p/9676422.html

上一篇 下一篇

猜你喜欢

热点阅读