数据挖掘学习---GEO 数据库简介
GEO 数据是生信技能树生信爆款入门课程数据挖掘部分Day8的讲到的一个重要知识点。为加深理解,现在登录网站做下练习巩固。
一、GEO 数据库简介
GEO(GENE EXPRESSION OMNIBUS)数据库是由美国国立生物技术信息中心(NCBI)2000 年创建的基因表达数据库,收录了世界各国研究机构提交的基因表达数据,主要包括基因芯片,高通量测序数据。目前已发表的论文中涉及到基因表达检测的数据都可以通过 GEO 数据库找到,并且是免费使用。
二、GEO 数据格式
数据库存放四种数据类型:GSE,GDS,GSM 和 GPL。
一个 GSE ID 是指整个研究项目的系列数据,会涉及一到多个实验平台(GPL)
一个 GDS ID 对应同一个实验平台的数据集。
一个 GSM ID 对应一个样本的表达数据信息,GSE,GDS 会包含多个 GSM 的数据。
一个 GPL ID 对应一个实验平台的信息,包括芯片探针的设计和注释信息。
三、GEO 数据库的基本使用
先来看一下每个页面都是什么样子
GPL 页面
![](https://img.haomeiwen.com/i19009296/71512f217cfd8a0a.png)
进去之后是
![](https://img.haomeiwen.com/i19009296/77cec3b5ba529d8c.png)
GSE 页面
![](https://img.haomeiwen.com/i19009296/ae0c2c8af44d14f4.png)
进去之后
![](https://img.haomeiwen.com/i19009296/d4ada4bea89c969a.png)
GSM 页面
![](https://img.haomeiwen.com/i19009296/43bbd0d77bf51ad0.png)
如何使用 GEO 数据库检索呢?
GEO 可以与其他 NCBI 数据库一样可以用标准关键词的方法进行检索,或者直接检索。
例:在 DataSets 搜索「lung cancer」便可寻找有关人类肺癌微阵列实验数据集合。
在右上角出还可以自行选择想要了解的物种,左侧有根据过滤条件选择。
![](https://img.haomeiwen.com/i19009296/b82b62bd55937529.png)
![](https://img.haomeiwen.com/i19009296/9e68f63e86147f32.png)
GEO 数据库只负责用户上传数据,而不负责对数据质量的控制,因此,有小伙伴也会发现,自己下载好的矩阵文件里面基因表达量数值特别大而且数据不集中,究其原因就是 GEO 数据库的数据参差不齐,不能确定上传者是否对整理好的数据进行了标准化处理。这个就需要后续的处理了。
4 GEO数据下载:
通过查阅文献,我们可以知道作者提交GEO数据库的GSE数据编号,通过这个编号我们就可以在GEO数据库中搜索相应的GSE编号,然后下载数据了,例如:
![](https://img.haomeiwen.com/i19009296/8bc7699e040c6ff6.png)
然后就可以看到相应的数据信息:
![](https://img.haomeiwen.com/i19009296/26a42549169cfa50.png)
总结下来就是:
GEO 数据库是第一个基因表达数据的公共储存数据库,具有强大的数据收录功能。记录各类芯片数据和测序数据,主要为表达谱数据。用户可以自行上传。数据库是开放的,可供大众下载和使用。
参考
1.GEO 数据介绍及在线下载
2.生信第一课,浅谈 GEO 数据库