国家基因组科学数据中心(NGDC)---组学原始数据如何上传GS
前言
在发表文章之前我们需要将测序的原始数据上传到一个公共库,并在文中提供accession number,实现数据的公开共享,这是国际惯例。以前我们上传数据时只能上传到美国国立生物技术信息中心(NCBI)、欧洲生物信息学研究所(EBI)、日本核酸数据库(DDBJ),现在中国科学院北京基因组研究所(国家生物信息中心)国家基因组科学数据中心 (CNCB-NGDC)—中国的 "NCBI" 已经建立并日渐完善。组学原始数据归档库(GSA)是组学原始数据汇交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台。GSA已获得多个国际期刊认可,并已被国际著名出版商Elsevier收录为指定的基因数据归档库,其权威性得到国内外100余家学术杂志的认可。GSA已通过FAIRsharing认证,获得Wiley出版集团认可,因此我们不用担心上传数据到GSA不被期刊认可,也不用再舍近求远上传数据到NCBI,作为中国人,我们一定要支持我们NGDC中的数据库。本文介绍了如何上传测序原始数据到GSA,附详细操作步骤。
一、什么是NGDC?
国家基因组科学数据中心(https://ngdc.cncb.ac.cn/;NGDC)于2019年6月5日经科技部、财政部通知公布,由鲍一明研究员作为学术带头人,以中国科学院北京基因组研究所(国家生物信息中心)作为依托单位,联合中国科学院生物物理研究所和中国科学院上海营养与健康研究所共同建设。中心面向我国人口健康和社会可持续发展的重大战略需求,建立生命健康组学大数据储存、整合与挖掘分析研究体系,研发生物多样性与健康大数据汇交、应用与共享平台,发展大数据系统解析与转化应用的新技术和新方法,建设支撑我国生命科学发展、国际知名的基因组科学数据中心。
2020年中心开发了8个全新数据库 (2019nCoVR,Aging Atlas,BrainBase,CGIR,GTDB,LncExpDB,scMethBank和TransCirc),更新和丰富了多个核心数据库资源 (BioProject,BioSample,GSA,GWH,GVM,GEN和生物多样性资源等),涉及疾病、衰老、调控和生物多样性等多个前沿领域,初步形成我国生物数据安全汇交管理和多组学数据平台的国家中心数据资源体系。数据库建设整体情况以“Database Resources of the National Genomics Data Center, China National Center for Bioinformation in 2021”为题在国际学术期刊《核酸研究》(Nucleic Acids Research)在线发表。
NGDC的主要致力于以下三方面的工作:①围绕中国人群普惠健康的精准医学相关组学信息资源,完善建立中国人群基因组遗传变异图谱,形成中国人群精准医学信息库;②基于高通量测序的海量原始组学数据资源,建立符合国际标准的原始组学数据归档库,形成中国原始组学数据的共享平台;③围绕国家重要战略生物资源,建立海量组学数据的整合、挖掘与应用体系,形成综合性的多组学数据库系统。
图片.png常用资源:
生物项目数据库(BioProject):是收集与共享生物学研究项目信息的资源库,涵盖的项目类型包括常规组学研究的基因组、转录组、表观组和宏基因组等,并针对大型项目提供高效、安全、专业化的项目分级管理。
生物样本数据库(BioSample):是收集与与共享生物样品信息的资源库,提供生物样品单结构化描述信息递交和发布,涵盖的样品类型包括人、动物、植物、微生物(含环境微生物)、病毒等,提供批量数据上传和离线数据递交服务。通常一个BioProjiect对应一个BioSample,如果多个样本可以批量设置BioSample,也就是一个BioProject对应多个Biosample。
组学原始数据归档库(GSA):植物/动物
组学原始数据归档库 (GSA-Human):人类遗传资源数据,需要备案
多元数据归档库(OMIX):如要共享的代谢组数据,影像,Excel等,上述两个库不能存放的,上传到这个库。
生物工具库(Biocode):存放代码,部分替代github
基因组序列数据库(GWH):类似于NCBI 的genebank, 基因组拼接组装完的数据可以上传到这里
基因组变异库(GVM):等同于NCBI DDSNP(19年后只接受人的),包括人动物作物的单核苷酸多态性变异,call SNP 变异的数据上传这里
生物数据库目录(DBCommons ):根据引用(平均年引用)评价一些数据库,如DVide和KEGG等
基因表达数据库(GEN):等同于国际上的GO
甲基化数据库(MethBank)
二、NGDC的发展历程
生物信息的数据要海量整合后才会有价值,割裂的数据库只完成了“存”却难以走向“使用”, 为了解决我国基因组数据存管用难、数据流失严重、核心基因组科学信息资源先“出口”再“进口”的问题,国家基因组科学数据中心应运而生。从2016年到2022年,短短6年的时间,NGDC已经发展成为全球主要的生物数据中心。
图片.png 图片.png
三、什么是GSA?
组学原始数据归档库(Genome Sequence Archive,简称GSA)是组学原始数据汇交、存储、管理与共享系统,是国内首个被国际期刊认可的组学数据发布平台, 主要汇交实验信息(Experiment Metadata)、测序反应信息(Run Metadata)信息以及归档测序文件数据(Sequence Data file)。
GSA的系统建设遵循了国际核酸序列共享联盟(InternationalNucleotide Sequence Database Collaboration,INSDC)的相关标准,并作为INSDC的补充,旨在减轻国际相关数据库数据存贮及数据传输的压力;立足中国,服务全球。由于中国国际网络出口带宽的瓶颈问题,数据传输效率低下。以中国科学院北京基因组研究所的150Mbs出口带宽为例,向NCBI数据库递交1TB的数据需要花费2周以上的时间。GSA的建立可以让国人享受更快的传输速度,更贴心的服务!
截至2022年4月,GSA已为国内外多个单位提供免费数据存储服务,累计用户递交项目信息超过572,259个,用户提交的测序数据量超过13.23PB。
图片.png
四、为什么选择上传数据到GSA?
上传GSA数据库的几大理由:
1.符合数据战略安全要求;
- 是国内首个被国际期刊认可的组学数据发布平台;
3.界面可切换为中文,契合大家阅读习惯;
4.人性化设置,例如公布日期可随时修改,数据未公开前可一键分享给审稿人查看,数据上传信息修改、增添方便等等;
5.多途径协助数据上传, 上传数据快 (qq群全天候解答疑问,优盘寄送或工作人员上门拷贝等绿色上传通道)。 - GSA立足于中国,极大方便了中国科学家的数据递交,同时遵循INSDC联盟数据标准,立心于服务全球,为全世界的科研领域共享贡献数据。
简单来说就是:有底气、被认可、更快、更方便
五、如何上传测序原始数据至GSA?(重点!!附详细步骤!!)
1. 准备要上传的数据
原始数据,fastq、bam文件,网站只接受gzip和bzip2压缩格式
图片.png
2. 计算MD5码
MD5码主要是用来校验递交的数据在网络传输过程中是否损坏或丢包,它是由数字和英文字母组成的长度为 32 的定长字符串,一般测序公司返回的数据中会有。我们也可以通过以下方式进行计算MD5码:
- Linux 用户使用 $ md5sum 命令计算;(输入md5sum 加文件名)
代码如下(示例):
md5sum D1-1_1.clean.fq.gz
图片.png
- Mac 用户使用$ md5 命令计算;
- Windows 用户使用第三方工具进行计算,例如 winmd5free。
3.进入NGDC主页,登入账户
首先进入我们NGDC主页:(https://ngdc.cncb.ac.cn/)--点击登入;
图片.png如果是第一次使用要注册账户:
图片.png
图片.png
4. 填写数据信息
账户注册完以后,就可以登入账户按照以下原则进行数据信息录入。简单来说就是填写你要上传数据的信息,分为以下三步①先创建BioProject ②创建BioSample ③创建GSA(先创建experiment 再创建run)。只填写*的必填部分即可。可能大家不太理解BioProject, BioSample,experiment, run。举个例子,假如我有以四个时间点Ck,12h,24h,48h,每个时间点三个生物学重复,取样测的转录组数据。那么我就有12个样本BioSample,12个experiment,12个run,或者一个experiment对应多个run也可以。
第一步:建立Bioproject。
依照以下步骤,进入BioProject数据库创建BioProject并完成相关信息的填写(要用英文填写)。注意最后要设置一个Release Date,即设置公开项目的时间,我们可以设置6 month-1 year后,然后在文章发表后手动公布,但是最长不要超过两年。信息填写只用填写带星号的必填项即可。
图片.png 图片.png
图片.png 图片.png
第二步:建立BioSample。
建立完项目后,返回主页点击BioSample,按步骤填写相关信息。这里也要设置BioSample的发布日期,通常情况下可与Bioproject的发布日期保持一致。
图片.png 图片.png 图片.png 图片.png
图片.png
图片.png
示例:
图片.png
说明:
图片.png
第三步:创建GSA。
进入GSA数据库 (https://ngdc.cncb.ac.cn/gsa/) --- 新建GSA ---下载表格---完成Experiment和Run相关信息填写并上传。
如果没有创建Bioproject和BioSample或者创建了,也可以直接进行这一步,会有跳转链接,跳转到创建Bioproject,BioSample。
进入GSA数据库
图片.png新建GSA
图片.png填写信息
图片.png下载表格文件
图片.png例如:
图片.png
图片.png
说明:
图片.png
图片.png
网站更新之后,BioSample和GSA中Experiment 和run的信息以表格的形式填写,比之前方便多了
5. 数据上传:
(1). 通过FTP软件 上传(上传需要流量!!如果小数据可以用)
可以下载 FTP 客户端软件(比如 FileZilla Client)登录 FTP 服务器,用户账号与NGDC账号一致。主机处输入服务器地址: ftp://submit.big.ac.cn ;输入用户名和密码,即注册NGDC的邮箱和密码; 注意要先切换到GSA目录下再上传。
常见登录问题:
登入问题1: AUTH SSL 的报错信息 无法连接服务器 文件----站点管理器-----设置协议为: ftp文件传输协议-----加密:选择只使用明文FTP
登入问题2: MLSD 的报错,显示“读取目录列表失败”。
Filezila –>编辑->设置--修改传输模式, 改为被动模式
图片.png
(2). 通过服务器上传(推荐!!):如果实验室有服务器的话,推荐服务器上传,步骤如下:(服务器上要先安装ftp )
代码如下:
cd /home/chenss/RNAseq_data #进入需要上传数据的路径下
ftp submit.big.ac.cn #连接远程服务器
sisichen@bjfu.edu.cn #输入用户名(注册用的邮箱);
****** #输入密码;
cd /GSA #切换到指定文件夹;
binary #使用二进制模式(binary mode)上传
prompt #关闭交互模式
mput *.fq.gz #上传数据
注意:登录自己的 FTP 路径后,一定要先 cd 到 /GSA 目录下再上传文件
(3)邮寄硬盘
数据量大的话(超过1TB),可以邮寄硬盘到GSA协助上传数据。具体可以联系 gsa@big.ac.cn
6.等待审核
通常情况,数据文件审核归档约1-2天 (数据量越大响应所需时间越长),归档成功后系统会以邮件发送插入文章中的GSA 的 Accession number 如CRA0016XX, 这个记录好文章中要写。 在数据审核归档期间,用户如果需要修改或删除数据信息,可以联系 gsa@big.ac.cn,或者加QQ 群: 548170081.
总结
以上就是今天要讲的内容,本文仅仅简单介绍了组学原始数据提交到GSA的方法,适用于新手,更简单的方法是,可以直接选择GSA---提交数据,已有项目和样本信息可以直接填写编号,没有可以点击跳转到对应地方填写。此外NGDG还有生物工具库 (Biocode)、多元数据归档库 (OMIX)、基因组序列数据库 (GWH)、基因组变异库 (GVM)等、生物数据库目录 (DBCommons )、甲基化数据库 (MethBank)、基因表达数据库 (GEN)、生物信息在线分析平台(BIT)。