NCBI组学数据上传流程

2020-08-13 本文已影响0人王忙

论文发表之前我们常常会有递交测序数据到NCBI的需求，这些数据例如：基因组，转录组，ChIP-seq，ATAC-seq，基因组注释文件，三代测序原始数据等都有不同的NCBI子数据库将其收集。

1. NCBI账号注册

点击最右上角
点击注册属于自己的账号 image.png

2. 登录账号后开始数据上传

先递交BioProject项目信息
这里需要依次填写7个部分的内容，并至少指定一个机构邮箱
再递交BioSample样品信息
这里需要依次填写6个部分的内容，并至少指定一个机构邮箱
然后我们递交测序原始数据（二代测序；三代测序）到SRA数据库

1）填写基础信息

2）这里需要输入系统分配的的BioProject号

3)接下来的内容依次填写，都是一些基础的测序信息，需要递交的数据必须用英文命名，直到这一步才开始上传数据。由于国内网速不好，需要使用aspera工具递交

在windows或Linux系统下打开命令行，创建一个新目录，命名为submit，并将需要上传的数据拷贝到该目录下，输入

ascp -i ~/aspera.openssh -QT -l100m -k1 -d submit subasp@upload.ncbi.nlm.nih.gov:uploads/568019240_qq.com_w3VfoRkI

等待10分钟后，点击 select preload folder，将出现刚才上传的文件夹，选中即可，注意这里上传的文件名及后缀必须和SRA METADATA表格中填写的完全一样，完成递交后我们可以看到这些递交信息，经NCBI系统确认后，会显示Processed

如果拼接了基因组，我们需要上传基因组fasta文件和基因注释文件，官方步骤点这里查看
1）制作GeneBank递交模版，这一步需要填写之前的BioSample和BioProject号
2）准备一个需要上传的基因组fasta文件，fasta的Header最好用这种格式：

>xxxx_1 [organism=Genus species] [strain=xxxx]
>xxxx_2 [organism=Genus species] [strain=xxxx]

3)准备GFF3/GTF文件，文件的第一列必须和基因组序列header对应具体的细节在这里，简单来说，先下载table2asn_GFF工具，然后使用命令：

table2asn_GFF -M n -J -c w -euk -t template.sbt -gaps-min 10 -l paired-ends -locus-tag-prefix H6S33 -j "[organism=Morchella sextelata]" -i ./Morchella.fsa -f ydj.gff3 -o output.sqn -Z

-f: 基因组注释文件GFF3/GTF
-t: 第一步制作的模版
-i: 第二步准备的基因组序列文件
-locus-tag-prefix: 这个参数好像需要写邮件到genomes@ncbi.nlm.nih.go，他们会给回复这个号（可能也有别的办法获取）
4）运行完成后，文件夹下会存在一个.sqn后缀的文件，将其放入一个单独的文件夹，命名为submit2，然后开始递交

5）依次填写这些信息

上传数据还是使用ascp，命令运行后过十分钟点击select preload folder，然后上传，最后进入递交数据管理界面进行核对即可

ascp -i ~/aspera.openssh -QT -l100m -k1 -d submit2 subasp@upload.ncbi.nlm.nih.gov:uploads/568019240_qq.com_w3VfoRkI

数据递交过程有任何问题可以向工作人员反应：genomes@ncbi.nlm.nih.go

NCBI组学数据上传流程

1. NCBI账号注册

2. 登录账号后开始数据上传

猜你喜欢

热点阅读