GEO数据库的搜索下载数据技巧
1、首先GEO数据库是个什么鬼呢?
GEO数据库全称GENE EXPRESSION OMNIBUS,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库。它创建于2000年,收录了世界各国研究机构提交的高通量基因表达数据,也就是说只要是目前已经发表的论文,论文中涉及到的基因表达检测的数据都可以通过这个数据库中找到。
2、那GEO数据库有哪些检索入口呢?
最常用的有两种方式,如果你知道GSE编号可以通过网址http://www.ncbi.nlm.nih.gov/geo直接进入,具体编号介绍文件下载方法见:https://www.omicsclass.com/article/1100
另外一种就是通过NCBI主页的入口基因搜索下载。通常是不知道GEO编号,通过样品类型,实验处理,平台信息等搜索筛选想要的GEO数据:https://www.ncbi.nlm.nih.gov/,进入NCBI主页,搜索数据选择GEO DataSets,如果搜索某个基因表达量可选择GEO Profiles。
3、搜索方法技巧详细介绍
1)首先我们先来介绍一下数据库检索界面的基本信息:
和pubmed一样,GEO数据库界面主要包括检索框、检索结果列表、检索结果限定选项、检索记录信息,等(点开大图有惊喜),数据类型详解见:https://www.omicsclass.com/article/1100
2)想要准确地找到需要的数据,限定条件很重要
限定数据记录类型:首先数据导入类型主要分为四种:datasets、series、samples和platforms,可根据自己的需要选择,最常用的是series数据集显示格式
限定检测平台类型:要注意的是不同的实验检测类型不一样,比如DNA、mRNA、SNP、甲基化等等,在检索时就要结合自己的实验设计选择相应的检测类型。
限定作者:当想要检索某一个具体研究者发表的文章相应的数据资料时,就可以在这里ADD作者的名字来精确检索啦。
限定物种来源:在选择限定条件时,还有很重要的一项就是选择检测样本的物种来源,比如人、小鼠、家兔、犬等等
限定样品类型:除了不同的物种外,如果想要查找某一层面基因表达的数据时,比如组织、细胞等等,在这里ADD想要的type就行。
4、数据下载介绍
选中其中一个感性的标题点击:
之后得到数据介绍页面:
数据介绍及下载详解见:https://www.omicsclass.com/article/1100
更多生物信息课程:
1. 文章越来越难发?是你没发现新思路,基因家族分析发2-4分文章简单快速,学习链接:基因家族分析实操课程、基因家族文献思路解读
2. 转录组数据理解不深入?图表看不懂?点击链接学习深入解读数据结果文件,学习链接:转录组(有参)结果解读;转录组(无参)结果解读
3. 转录组数据深入挖掘技能-WGCNA,提升你的文章档次,学习链接:WGCNA-加权基因共表达网络分析
4. 转录组数据怎么挖掘?学习链接:转录组标准分析后的数据挖掘、转录组文献解读
5.微生物16S/ITS/18S分析原理及结果解读、OTU网络图绘制、cytoscape与网络图绘制课程
6. 生物信息入门到精通必修基础课,学习链接:linux系统使用、perl入门到精通、perl语言高级、R语言画图
7. 医学相关数据挖掘课程,不用做实验也能发文章,学习链接:TCGA-差异基因分析、GEO芯片数据挖掘、GSEA富集分析课程、TCGA临床数据生存分析、TCGA-转录因子分析、TCGA-ceRNA调控网络分析
8.其他课程链接:二代测序转录组数据自主分析、NCBI数据上传、二代测序数据解读。