生信

NCBI组学数据上传流程

2020-08-13  本文已影响0人  王忙

论文发表之前我们常常会有递交测序数据到NCBI的需求,这些数据例如:基因组,转录组,ChIP-seq,ATAC-seq,基因组注释文件,三代测序原始数据等都有不同的NCBI子数据库将其收集。

1. NCBI账号注册

2. 登录账号后开始数据上传

ascp -i ~/aspera.openssh -QT -l100m -k1 -d submit subasp@upload.ncbi.nlm.nih.gov:uploads/568019240_qq.com_w3VfoRkI

等待10分钟后, 点击 select preload folder, 将出现刚才上传的文件夹,选中即可,注意这里上传的文件名及后缀必须和SRA METADATA表格中填写的完全一样,完成递交后我们可以看到这些递交信息,经NCBI系统确认后,会显示Processed

>xxxx_1 [organism=Genus species] [strain=xxxx]
>xxxx_2 [organism=Genus species] [strain=xxxx]

3)准备GFF3/GTF文件,文件的第一列必须和基因组序列header对应具体的细节在这里,简单来说,先下载table2asn_GFF工具,然后使用命令:

table2asn_GFF -M n -J -c w -euk -t template.sbt -gaps-min 10 -l paired-ends -locus-tag-prefix H6S33 -j "[organism=Morchella sextelata]" -i ./Morchella.fsa -f ydj.gff3 -o output.sqn -Z

-f: 基因组注释文件GFF3/GTF
-t: 第一步制作的模版
-i: 第二步准备的基因组序列文件
-locus-tag-prefix: 这个参数好像需要写邮件到genomes@ncbi.nlm.nih.go,他们会给回复这个号(可能也有别的办法获取)
4)运行完成后,文件夹下会存在一个.sqn后缀的文件,将其放入一个单独的文件夹,命名为submit2,然后开始递交


5)依次填写这些信息

上传数据还是使用ascp,命令运行后过十分钟点击select preload folder,然后上传,最后进入递交数据管理界面进行核对即可
ascp -i ~/aspera.openssh -QT -l100m -k1 -d submit2 subasp@upload.ncbi.nlm.nih.gov:uploads/568019240_qq.com_w3VfoRkI

数据递交过程有任何问题可以向工作人员反应:genomes@ncbi.nlm.nih.go

上一篇 下一篇

猜你喜欢

热点阅读