生信全书 挑 第二节:GEO数据库
第二节:GEO 数据库
GEO,全称 Gene Expression Omnibus(基因表达综合数据库)
GEO 数据库收录的数据类型有:
![](https://img.haomeiwen.com/i21987773/efe8b4c9eef7fa62.jpg)
1)基因芯片或高通量测序的基因表达数据,包括 ncRNA
2)基因芯片或高通量测序的 ChIP 数据
3)基因芯片或高通量测序的基因组甲基化数据
4)高通量实时定量 PCR 的数据
5)微阵列比较基因组杂交技术(arrayCGH)的基因组变异数据
6)单核苷酸多态性(SNP)芯片数据
7)基因表达系列分析(SAGE)的数据
8)蛋白芯片数据
9)十几组大规模平行测序 MPSS 数据
10)十几组质谱 MS 数据
11)其他
GEO 数据库的数据组织结构
![](https://img.haomeiwen.com/i21987773/0646fe2e5c080f2e.jpg)
GEO 数据有五种:Platforms(平台)、Samples(样本)、Series(系列)、DataSets(数据集) 以及 Profiles(基因表达谱)
GEO DataSets
-
以数据集为单位,存储整个实验的数据
-
Platforms(平台)、Samples(样本)、Series(系列)、DataSets (数据集)
-
四种数据都有 GEO 专门分配的唯一编号(“G”+ 平台缩写 + 流水号),指向唯一的数据
-
Samples:是指实验中的样本,包括样本名称、类型、样本处理方案等信息及样本对应的检测数据,每个样本 分配一个编号,以“GSM”开头,如 GSM134584
-
Series:是将构成某个实验的相关样本集中到一个有生物意义的数据集,包括实验设计、描述、组别和样本等信息以及检测数据文件, 以“GSE”开头,如 GSE5764;
-
Platforms :是指高通量实验检测所用的工具,Platform包括平台名称、描述、阵列注释等信息和文件,平台的编号以“GPL”开头,如 GPL570;
-
DataSets:被分析好的 Series 数据,分配以“GDS”开头的编号, 如 GDS2635
-
GEO Profiles
-
以基因为单位,一个基因在一次试验中的定量表达数据
- Profiles: 都存储在 GEO Profiles 子数据库中,即存储单个基因在 DataSets 各分组中的表达谱,分配的是流水号,如 33759453
![](https://img.haomeiwen.com/i21987773/4014a845584849c4.jpg)