NCBI组学数据上传流程
2020-08-13 本文已影响0人
王忙
论文发表之前我们常常会有递交测序数据到NCBI的需求,这些数据例如:基因组,转录组,ChIP-seq,ATAC-seq,基因组注释文件,三代测序原始数据等都有不同的NCBI子数据库将其收集。
1. NCBI账号注册
- 点击最右上角
- 点击注册属于自己的账号 image.png
2. 登录账号后开始数据上传
- 先递交BioProject项目信息
- 这里需要依次填写7个部分的内容, 并至少指定一个机构邮箱
-
再递交BioSample样品信息
-
这里需要依次填写6个部分的内容, 并至少指定一个机构邮箱
-
然后我们递交测序原始数据(二代测序;三代测序)到SRA数据库
1)填写基础信息
2)这里需要输入系统分配的的BioProject号
3)接下来的内容依次填写,都是一些基础的测序信息,需要递交的数据必须用英文命名,直到这一步才开始上传数据。由于国内网速不好,需要使用aspera工具递交
在windows或Linux系统下打开命令行,创建一个新目录,命名为submit,并将需要上传的数据拷贝到该目录下,输入
ascp -i ~/aspera.openssh -QT -l100m -k1 -d submit subasp@upload.ncbi.nlm.nih.gov:uploads/568019240_qq.com_w3VfoRkI
等待10分钟后, 点击 select preload folder, 将出现刚才上传的文件夹,选中即可,注意这里上传的文件名及后缀必须和SRA METADATA表格中填写的完全一样,完成递交后我们可以看到这些递交信息,经NCBI系统确认后,会显示Processed
- 如果拼接了基因组,我们需要上传基因组fasta文件和基因注释文件,官方步骤点这里查看
1)制作GeneBank递交模版,这一步需要填写之前的BioSample和BioProject号
2)准备一个需要上传的基因组fasta文件,fasta的Header最好用这种格式:
>xxxx_1 [organism=Genus species] [strain=xxxx]
>xxxx_2 [organism=Genus species] [strain=xxxx]
3)准备GFF3/GTF文件,文件的第一列必须和基因组序列header对应具体的细节在这里,简单来说,先下载table2asn_GFF工具,然后使用命令:
table2asn_GFF -M n -J -c w -euk -t template.sbt -gaps-min 10 -l paired-ends -locus-tag-prefix H6S33 -j "[organism=Morchella sextelata]" -i ./Morchella.fsa -f ydj.gff3 -o output.sqn -Z
-f: 基因组注释文件GFF3/GTF
-t: 第一步制作的模版
-i: 第二步准备的基因组序列文件
-locus-tag-prefix: 这个参数好像需要写邮件到genomes@ncbi.nlm.nih.go,他们会给回复这个号(可能也有别的办法获取)
4)运行完成后,文件夹下会存在一个.sqn后缀的文件,将其放入一个单独的文件夹,命名为submit2,然后开始递交
5)依次填写这些信息
上传数据还是使用ascp,命令运行后过十分钟点击select preload folder,然后上传,最后进入递交数据管理界面进行核对即可
ascp -i ~/aspera.openssh -QT -l100m -k1 -d submit2 subasp@upload.ncbi.nlm.nih.gov:uploads/568019240_qq.com_w3VfoRkI
数据递交过程有任何问题可以向工作人员反应:genomes@ncbi.nlm.nih.go