中国核酸数据库GSA数据提交指南

2020-10-12 本文已影响0人生信编程日常

注册并登录生物数据递交系统（BIG Sub, https://bigd.big.ac.cn/gsub/）

GSA的数据模型

为确保与国际同类数据库系统的兼容性，GSA遵循INSDC联盟的数据标准，GSA元数据类别主要包括项目信息（BioProject，归档于生物项目数据库）、样本信息（BioSample，归档于生物样本数据库）、实验信息（Experiment）、以及测序反应（Run）信息。项目信息是用来描述所开展研究的目的、涉及物种、数据类型、研究思路等信息；样本信息是指本研究涉及的生物样本描述，如样本类型、样本属性等；实验信息包括实验目的、文库构建方式、测序类型等信息；测序反应信息包括测序文件和对应的校验信息。各类数据之间采用线性、一对多的模式进行关联，从而形成“金字塔”式的信息组织与管理模式（图1）。

主要分为三个部分

1.创建项目（BioProject）；
2.创建样本（BioSample）；
3.创建GSA数据集；

1. 创建项目（BioProject）

如果您之前没有创建项目（BioProject）请进入 BioProject 数据库完成创建：
BioProject的构建分为五个步骤。

第一个是提交者信息，这里一般不需要修改，直接点击保存即可。
第二个是基本信息：我们需要指定发布的日期，这里选择日期，不同于NCBI的是在我们公开的日期之前，数据可以随时修改时间。
第三个是项目类型：按自己数据类型填写就好。
第四个出版信息：空着就可以
第五个就是概况信息：预览，检查前面几个填写的内容，如果发现前面有内容不对，直接点击这五个模块中的任何一个都可以转到该模块进行更正。

2. 创建样本（BioSample）

详细说明文件：https://bigd.big.ac.cn/gsub/document/BioSample-BioSample_Submission_Guide_2.2.cn.pdf

如果您之前没有创建样本（BioSample）请进入 BioSample 数据库完成创建：

第一步都一样，是确认提交者信息，一般不做修改：
第二步选择时间和项目同一个试时间即可，输入项目号，注意项目号就是上面我们填写完成后生成的。
第三步：填写样本类型
第四步: 填写样本文件
第五步: 查看我们填写的信息。

3. 构建GSA数据集

完成 GSA数据集中Experiment和Run的元数据信息录入——实现与BioProject、BioSample和数据文件的相互关联。通过FTP完成数据文件上传。

第一步：点击GSA按照图中顺序进行点击，第一个提交者信息和前面两个都是一样的，所以只需要保存就好。
第二步：填写一个xlsx,包含两个sheets，包括一些数据的基本信息，填好上传即可，注意数据只能提交压缩格式。基本信息的填写说明：https://bigd.big.ac.cn/gsub/document/batch/gsa/GSA_batch_submit_template_help_document.cn.pdf

第三步：上传数据，这里我选择用Aspera命令行上传

ascp -P 33001 -i /your/path/key/aspsub_rsa -QT -l100m -k1 -d /your/data/path/fastqs aspsub@submit.big.ac.cn:uploads/z0000@gmail.com_f9ff019d

第四步：查看是否正确
第五步：上传结果修改和追踪
可以参考：https://bigd.big.ac.cn/gsa/document/GSA-GSA_Submission_Guide_2.2.cn.pdf

通常状况下，数据信息与文件审核归档约需要 1-2 天，归档成功后会收到通知邮件，并可在 GSA 列表中查找的分配的 GSA 编号。

参考：
http://blog.sciencenet.cn/blog-3334560-1218399.html
https://bigd.big.ac.cn/gsa/documents