叶绿体基因组

将叶绿体基因组上传至NCBI

2022-08-19  本文已影响0人  路人里的路人

目的

将公司测序并筛选得到的叶绿体基因组上传至NCBI

方法

使用getorganelle,blastn,cpgavvs2,mpi,mega等一系列软件完成有关文件的准备。

步骤

使用getorganelle将下放的两条序列进行拼接得到fasta文件\rightarrow将fasta文件用NCBI的blastn功能进行比对得到近缘物种的gb文件\rightarrow将fasta文件与近缘物种gb文件在CPGAVS2网站上注释得到gbf和fasta文件\rightarrow在MPI网站上将gbf文件转化为TBL文件\rightarrow确认CDS与fasta碱基数是否一致并改名\rightarrow上传至NCBI

叶绿体基因组拼接

1.安装getorganelle(依赖的库较多如bowtie2,blast等)

cd /home/monkeyflower/biosoft
#我们实验室的生信软件都安装在这个文件夹中
conda create -n getorganelle python=3.6.8
#创建getoganelle的运行环境,可通过python3 -V查看当前的python版本,使用系统中存在的python版本
conda install -n getorganelle -c bioconda getorganelle
#安装getorganelle

2.安装blast

由于网速的原因,可先将blast的压缩包(ncbi-blast-2.13.0+-x64-linux.tar.gz)下载到Windows上,再上传到服务器的/home/monkeyflower/biosoft目录
cd /home/monkeyflower/biosoft
#转到将要安装的目录
tar -zxvf ncbi-blast-2.13.0+-x64-linux.tar.gz
#将提前放置在这个目录下的blast 解压
export "PATH=/home/monkeyflower/biosoft/ncbi-blast-2.13.0+/bin:$PATH"
#将blast添加到环境变量

3.安装叶绿体基因组等数据库

conda activate getorganelle
#激活getorganelle(若要使用getorganelle,必须先激活环境)
get_organelle_config.py --add embplant_pt
#植物叶绿体基因组:embplant_pt,植物线粒体基因组:embplant_mt,植物核核糖体DNA片段:embplant_nr

4.运行getorganelle

先将需要拼接的序列文件传输到/home/monkeyflower/bioworkplace目录
cd /home/monkeyflower/bioworkplace
#转到工作目录

5.拼接代码

conda activate getorganelle
#激活getorganelle
get_organelle_from_reads.py -1 sampleA.1.gz -2 sampleA.2.gz -F embplant_pt -o organellefile -R 10 -t 2 -k 35,85,115 
#-1和-2     正向和反向测序原始数据文件(如果是单向测序,-u且文件中不得有任何空格)
#-F         设定要组装的基因组类型
#-o         结果输出保存的目录(文件夹)名称
#-R         提取叶绿体基因 reads 的轮次(轮次越多,耗时越长)
#-t         并行使用 CPU 的数量(多核可提速),默认值是1
#-k         调用SPAdes进行 denovo组装的k-mer,数值必须是奇数,最大值是127
get_organelle_from_reads.py -1 sampleA.1.gz -2 CaryopterissampleA.2.gz -F embplant_pt -o organellefile --fast -k 21,65,105 -w 0.68 
#也可用上行代码缩短运行时间

NCBI上获取近缘物种作为参照文件

利用基因拼接得到的fasta文件在NCBI上比对寻找近缘物种以作为注释的参考文件。
进入NCBI官网并点击blast功能。如图一红圈所示;

图一
选择Nucleotide BLAST
图二
点击选择文件上传需要比对的fasta文件然后再另一个窗口显示结果
图三
图四
在比对结果中选择第一个作为参考物种。点击登录号(accession)进入详细界面,点击sent to,具体设置如图六,将参考物种保存为gb格式文件
图五
图六

通过CPGAVS2网站注释得到gbf文件

CPGAVS2网站:CPGAVAS2
进入网站后,具体设置如图七,第一个圈中是我们需要注释物种的fasta文件(来源于第一步叶绿体基因组拼装的结果),第二个圈是设置文件格式,一般都要选3,第三个圈中是我们从NCBI上blast后得到的gb格式文件。然后点submit。

图七
图八
submit后会产生一个ID号,如图九圈一所示,复制并记下这个ID号,过一段时间后(经验为2min左右),在圈二的submit粘贴ID号,查询结果。
图九
结果界面一直滑到最底部有Download选项,点击result,下载压缩包。
图十

通过GB2sequin网站转化gbf文件得到tbl文件

GB2sequin网站:MPI-MP CHLOROBOX - GB2sequin (mpg.de)
打开上一步的压缩文件,在解压的文件中找到结尾为.gbf,.fasta,.CDS.fasta,的文件(注意是那种数字后直接接文件格式的文件,如166091769884412.CDS.fasta)。
将gbf文件上传至网站,具体参数设置如图十一,设置好后点start conversation,得到结果后点击图十二圈出的按钮,再点击图十三中的Download,即下载tbl文件

图十一
图十二
图十三

并确认压缩包中碱基数和原先fasta文件中的碱基数是否一致,改掉fasta和tbl文件中的物种名。

在NCBI上上传叶绿体基因组

见链接:https://zhuanlan.zhihu.com/p/422628637

上一篇下一篇

猜你喜欢

热点阅读