GEO数据库dataset和profiles区别
GEO Database
近年来,利用高通量方法检测基因表达越来越普及,诸如微阵列杂交和基因表系列分析(SAGE)可以同时测量数以万计的基因转录脚本(gene transcript)。基因表达大棚车(GEO:Gene Expression Omnibus)则是归档和自由分发科研人员提交的高通量基因表达数据的公共仓库。目前,GEO存储了大约10亿单个基因表达的数据,来自于100多种生物,内容广泛涉及到各种生物学问题。这些大容量的数据可以使用用户友好的以Web为基础的工具进行有效的挖掘,检索和可视化表达。GEO的网址是https://www.ncbi.nlm.nih.gov/geo/。
GEO数据库dataset和profiles区别
我们在NCBI上搜索数据的时候,会发现有两个搜索入口,GEO DataSets 和 GEO Profiles,那么他们有什么不同呢:
attachments-2019-11-CTMcTuzO5dc8fc3612e0d.png通过下面的介绍,我们就可以知道他们的不同了:
搜索数据选择GEO DataSets,如果搜索某个基因表达量可选择GEO Profiles。
GEO数据介绍
GEO数据库里的数据是免费的,可以直接在线下载。但是,在下载数据之前你要了解GEO数据库的4个概念和4个数据存放类型:
一篇文章可以有一个或者多个GSE(Series)数据集,一个GSE里面可以有一个或者多个GSM(Samples)样本,而每个数据集都有着自己对应的芯片平台,就是GPL(GEO platforms)。GSE编号一般为作者提交时生成的原始数据编号,后续NCBI中的工作人员会根据研究目的、样品类型等信息归纳整合为一个GDS(Datasets),整理后的数据还会有GEO profile数据,也就是基因在这次实验中的表达数据。GDS里面的数据往往对应相同的平台具有可比性,另外,不是所有的GSE数据都能被整理,所以,有的GSE数据里面没有GDS数据也是正常。
详细信息见:https://www.ncbi.nlm.nih.gov/geo/info/overview.html
attachments-2019-11-6sikxAVd5dc8ea36cf88f.pngNCBI 的 GEO DataSets 和 GEO Profiles 相比有什么区别?
GEO DataSets: GEO数据库(收录整个试验的数据)
GEO Profiles数据库 (它负责收录一个基因在一次试验中的定量基因表达数据)
这么说吧,要理解Datasets和Profile有何区别,先得整明白GEO原始数据是如何提交的。
GEO有三种供提交者提交数据的平台,分别是Platform、Samples、Series。
Platform用来提交对序列及基于序列的平台的描述。Samples用来提交样本的处理条件、丰度测量方式。一条Series将一组相关Samples连接在一起,并提供了整个研究的描述,包括对数据的描述,总结分析。
image
回到题目,提交的原始数据怎么为各国学者方便地使用呢?
GEO管理人员通过算法对原始数据经过整理和标准化后,就产生了可被可视化的Datasets和Profiles。换言之,这是种高级数据。
Datasets是由GEO工作人员将Series数据整理所得,可以被可视化和分析,代表了生物学和统计学上可以被比较的样本的集合。而Profiles来源于Datasets,由在Datasets中所有样品的单个基因的表达测量结果组成。