线粒体序列信息提交NCBI2021-07-31
NCBI主页进入提交界面
图片.png
附上提交界面网址:
https://submit.ncbi.nlm.nih.gov/
细胞器提交官方指导
Submitting Mitochondrial and Chloroplast Genomes to GenBank (nih.gov)
选择基因组以及细胞器基因
图片.png
登录以后正式进入提交流程,前四个提交都不是线粒体基因相关的,所以只能选第五个。
图片.png当然提交需要你有一个账号,注册登录略过。
注册提交qq邮箱是不行的。
第一部分:联系方式
姓名,机构地址以及相关信息,电话+86(中国)
邮箱会有两个,会有一个Alternative Email,写不同的比较好,可以保证你一个邮箱出问题还有一个可以接收邮件。
1.png
第二部分:参考信息
第一个部分是序列作者
第二部分是文献引用,以及文献的作者,咱上传序列不是就为了发文章用嘛,写上这个文章就行。
2.png
第三部分:测序技术
根据自己实际情况选择就可以。测序方式,是否组装成序列,是的话还要写上用的什么软件组装。
3.png
第四部分:核酸序列信息
最上面的是写数据释放时期,可以选择立即释放,如果选择延后释放的话,那就至少六个月以后。
下面就是分子数据类型,拓扑结构(线性,成环),是否是完整序列。然后上传序列信息就可以,上传文件和粘贴序列二选一就可以。
4.png
线粒体这块看选项,咱们也只能选第一个基因组DNA
4-1png.png
第五部分生物信息
这块建议写大家都先定到种再上传,这样这块就可以写上物种名(属名加种名)。如果没有定种,那写sp.也是可以的。
5.png
第六部分:提交类别
这里就两种类型一个就是自己数据自己组装序列,另一个就是使用第三方数据,你组装上传的序列。
6.png
第七部分:修饰部分内容
这块不知道咋说了,除了上面写一下细胞器或者序列定位。剩下的都是添加一些零碎信息,坐标,海拔,收集时间,收集人,这些东西。自由发挥。
7-1.png 7.png
第八部分:序列特征注释
这部分我觉得是重头戏,线粒体基因序列的基因注释信息太重要了呀,没有这个就不知那一块是啥基因,这样后人使用就会很麻烦。
分为两个注释方式,
- 第一个是五列要素表文件上传
- 第二个是填写输入
8-1.png我是一般都是用第一个方式,下图就是第二个方式的展示,37个基因一个一个填写我觉得效率太低了。
使用五列要素表如图下,记得选择文件以后要点一下2.Upload File,这是上传。(后面我会单独说一下五列要素表的格式)
8-2.png
上传以后NCBI会检查一下你上传的是否有问题,有问题的地方会警告。
底下接着是所有的注释特征可编辑。最底下是预览的gbk格式。
9.png
第九部分:回顾
再确认一遍邮箱我觉得就可以完成提交。
其余都是具体情况再调整的。
10.png
最后完成提交,收工。
11.png
附加内容:五列要素表的格式
Feature Table File
https://www.ncbi.nlm.nih.gov/WebSub/html/help/feature-table.html
五列要素表我第一次接触是在mitoz的结果文件中有一个*.tbl文件,所以我后面使用时候也都这么写后缀,虽然不知是不是这个后缀。
格式要求:
- 第一行:
注意这个Sequence_ID 要求跟你上传核酸序列信息的Sequence_ID 一样要匹配的,因为可以批量上传序列和注释信息,所以要一一对应。
>Feature Sequence_ID
- 后续行添加特征
- 每个特征显示在单独的一行上。
- 一个特征的多个要素位于后续行中。
- 描述特征的限定符位于该特征及其间隔下方的行上。
- 每列由一个Tab键分隔。
1.五列说明:
[起始位置] [Tab] [终止位置] [Tab] [特征]
[Tab] [Tab] [Tab] [特征] [特征值]
2.跟gbk一样每一个基因都应该有两个特征一个是gene;另一个是tRNA,rRNA,CDS。
2482 2551 gene
gene trnI(gau)
2482 2551 tRNA
product tRNA-Ile
3.负链上基因特征起始和终止位置要跟gbk反过来,因为这里面没有complement()可以用,所以反向那就把起始和终止位置写成实际位置,系统自动读取为负链
10428 8683 gene
gene ND5
10428 8683 CDS
product NADH dehydrogenase subunit 5
transl_table 5
note TAA stop codon is completed by the addition of 3' Aresidues to the mRNA
4.tRNA,rRNA,CDS都要有product
CDS还要有transl_table
特殊需要注释的使用note
>Feature Dba-02
2482 2551 gene
gene trnI(gau)
2482 2551 tRNA
product tRNA-Ile
10428 8683 gene
gene ND5
10428 8683 CDS
product NADH dehydrogenase subunit 5
transl_table 5
note TAA stop codon is completed by the addition of 3' Aresidues to the mRNA
17085 16296 gene
gene s-rRNA
17085 16296 rRNA
product 12S ribosomal RNA