组学数据上传(六)|GEO数据库数据上传实操
最近有些老师反馈文章发表时要求提供GEO登录号,如:GSEXXXX,问要怎么获取这种登录号?这时就需要把数据上传至GEO数据库了。还在等什么,跟着小编了解下GEO数据库,手把手教您上传数据至GEO数据库。
GEO数据库全称GENE EXPRESSION OMNIBUS,成立于2000年,是由美国国立生物技术信息中心NCBI创建并维护的基因表达数据库,主要收录高通量基因表达数据。除SRA数据库之外,GEO数据库也是目前文章投递数据上传的数据库之一。
接受数据类型:原始数据或者经过处理的数据(符合“有关芯片试验的最小信息(minimum information about a microarray experiment,MIAME)”标准)
存储数据格式:web格式、spreadsheets格式、XML格式和纯文本格式
数据上传实操
01# 账号注册及登录
1)注册账号:进入https://www.ncbi.nlm.nih.gov/ 网页,找到页面右上角Sign in ,进入页面后,点击页面中的Sign up,根据自己喜好,选择对应的账号进行注册,按照提示填写账号、密码、邮箱等信息。
如果已有NCBI账号,此步骤可忽略。

2)登录账号:输入账号及密码(注册时使用哪种账号注册,登录时选择对应的登录通道登录),点击Log in,然后点击左上角的NCBI大图标回到NCBI的主页,点击图中Submit按钮进入提交数据页面。

02# 进入GEO数据上传页面
1)点击主页中Submit按钮进入提交数据页面,选择EGO数据库。进入GEO数据上传页面,选择对应的上传数据类型,高通量测序数据就点击“数据类型”中的第二行,进入数据上传页面。



03# 准备文件
根据网页提示准备3类文件,1. metadata spreadsheet,2. processed data files,3. raw data files 。


1)metadata spreadsheet:点击“metadata spreadsheet” 下载模板进行填写。
下载文件为Excel表格形式,该文件是填写关于整个研究中样本和实验的相关信息。
具体栏目填写参考:
SERIES这一块是一些跟您的实验相关的信息介绍,summary这一栏可以采用分段的模式来写,也可以采用一段式的模式来写,类似于科研论文中的摘要。

SERIES栏目
SAMPLES这一块是具体的实验分组信息,以及每一个组别里面的样品名称的填写

SAMPLES栏目
PROTOCOLS这一块主要是样品的处理方式以及测序建库的方式,一般服务商的结果报告中都会提供,也可通过与合作服务商伙伴的沟通来获得该部分的信息。

PROTOCOLS栏目
2)processed data files:一个至多个文件,是根据你的原始文件进行分析所提取得到的一些数据;该部分经过处理的数据是GEO提交的必要部分,GEO会审核客户上传的处理过的数据,以此来检验相关文章结论的真实可靠性。比如RNA-seq可以上传基因表达量文件,ChIP-seq可以上传WIG, bigWig, bedGraph等,不过由于是中间文件,该部分内容没有完全固定的格式。
3)raw data files:一个至多个文件,这是你测序或芯片获得的原始文件。测序的原始数据一般采用FASTQ格式,另外SRA数据库接受的其他格式也是可以的(https://www.ncbi.nlm.nih.gov/sra/docs/submitformats/)。
04# 数据上传
点击该网页“Uploading your submission”,跳转到数据上传部分:



跳转到“My GEO Profile”,进行个人基础信息填写,填写后跳转可获取FTP登录所需的IP、用户名及密码,通过FileZilla进行登录,开始上传数据。
GEO官网推荐的软件FileZilla,下载链接:https://filezilla-project.org。


进入到项目数据传输页面:



点击鼠标右键,在此路径下建三个子文件夹:1. metadata spreadsheet,2. processed data files,3. raw data files。然后将对应的文件上传至该文件夹即可。注意,由于raw data files很大,上传时需要耐心等待。
05# 确认数据上传完成
上传结束后,可点击Notify GEO,提醒GEO后台人员上传完成,可以进行审核。

点Notify GEO进去之后就是这样的界面,需要填写你建立的文件夹名称,期望数据公开的时间,以及更进一步的说明等。
上传成功或者数据有问题GEO都会以邮件的形式进行通知。一般约2,3个工作日,经审核数据没有问题,GEO会以邮件形式通知数据的GSM(实验样本编号)、GSE(研究项目编号)。
提示:提交了该数据之后,就会收到来自GEO数据库的邮件。(邮箱为NCBI注册时留下的邮箱)如果你的数据有问题,会通知你去再次上传或者是修改。你重新上传下数据就可以了。
等你的文件全部上传完成后,5个工作日内就会收到GEO给你发来的邮件,这时会给你一个GEO号,类似于GSEXXX。当你收到这封邮件后意味着你的数据正式上传成功了,写文章的时候把这个号附上就大功告成。