将叶绿体基因组上传至NCBI
目的
将公司测序并筛选得到的叶绿体基因组上传至NCBI
方法
使用getorganelle,blastn,cpgavvs2,mpi,mega等一系列软件完成有关文件的准备。
步骤
使用getorganelle将下放的两条序列进行拼接得到fasta文件将fasta文件用NCBI的blastn功能进行比对得到近缘物种的gb文件将fasta文件与近缘物种gb文件在CPGAVS2网站上注释得到gbf和fasta文件在MPI网站上将gbf文件转化为TBL文件确认CDS与fasta碱基数是否一致并改名上传至NCBI
叶绿体基因组拼接
1.安装getorganelle(依赖的库较多如bowtie2,blast等)
cd /home/monkeyflower/biosoft
#我们实验室的生信软件都安装在这个文件夹中
conda create -n getorganelle python=3.6.8
#创建getoganelle的运行环境,可通过python3 -V查看当前的python版本,使用系统中存在的python版本
conda install -n getorganelle -c bioconda getorganelle
#安装getorganelle
2.安装blast
由于网速的原因,可先将blast的压缩包(ncbi-blast-2.13.0+-x64-linux.tar.gz)下载到Windows上,再上传到服务器的/home/monkeyflower/biosoft目录
cd /home/monkeyflower/biosoft
#转到将要安装的目录
tar -zxvf ncbi-blast-2.13.0+-x64-linux.tar.gz
#将提前放置在这个目录下的blast 解压
export "PATH=/home/monkeyflower/biosoft/ncbi-blast-2.13.0+/bin:$PATH"
#将blast添加到环境变量
3.安装叶绿体基因组等数据库
conda activate getorganelle
#激活getorganelle(若要使用getorganelle,必须先激活环境)
get_organelle_config.py --add embplant_pt
#植物叶绿体基因组:embplant_pt,植物线粒体基因组:embplant_mt,植物核核糖体DNA片段:embplant_nr
4.运行getorganelle
先将需要拼接的序列文件传输到/home/monkeyflower/bioworkplace目录
cd /home/monkeyflower/bioworkplace
#转到工作目录
5.拼接代码
conda activate getorganelle
#激活getorganelle
get_organelle_from_reads.py -1 sampleA.1.gz -2 sampleA.2.gz -F embplant_pt -o organellefile -R 10 -t 2 -k 35,85,115
#-1和-2 正向和反向测序原始数据文件(如果是单向测序,-u且文件中不得有任何空格)
#-F 设定要组装的基因组类型
#-o 结果输出保存的目录(文件夹)名称
#-R 提取叶绿体基因 reads 的轮次(轮次越多,耗时越长)
#-t 并行使用 CPU 的数量(多核可提速),默认值是1
#-k 调用SPAdes进行 denovo组装的k-mer,数值必须是奇数,最大值是127
get_organelle_from_reads.py -1 sampleA.1.gz -2 CaryopterissampleA.2.gz -F embplant_pt -o organellefile --fast -k 21,65,105 -w 0.68
#也可用上行代码缩短运行时间
NCBI上获取近缘物种作为参照文件
利用基因拼接得到的fasta文件在NCBI上比对寻找近缘物种以作为注释的参考文件。
进入NCBI官网并点击blast功能。如图一红圈所示;
选择Nucleotide BLAST
图二
点击选择文件上传需要比对的fasta文件然后再另一个窗口显示结果
图三
图四
在比对结果中选择第一个作为参考物种。点击登录号(accession)进入详细界面,点击sent to,具体设置如图六,将参考物种保存为gb格式文件
图五
图六
通过CPGAVS2网站注释得到gbf文件
CPGAVS2网站:CPGAVAS2
进入网站后,具体设置如图七,第一个圈中是我们需要注释物种的fasta文件(来源于第一步叶绿体基因组拼装的结果),第二个圈是设置文件格式,一般都要选3,第三个圈中是我们从NCBI上blast后得到的gb格式文件。然后点submit。
图八
submit后会产生一个ID号,如图九圈一所示,复制并记下这个ID号,过一段时间后(经验为2min左右),在圈二的submit粘贴ID号,查询结果。
图九
结果界面一直滑到最底部有Download选项,点击result,下载压缩包。
图十
通过GB2sequin网站转化gbf文件得到tbl文件
GB2sequin网站:MPI-MP CHLOROBOX - GB2sequin (mpg.de)
打开上一步的压缩文件,在解压的文件中找到结尾为.gbf,.fasta,.CDS.fasta,的文件(注意是那种数字后直接接文件格式的文件,如166091769884412.CDS.fasta)。
将gbf文件上传至网站,具体参数设置如图十一,设置好后点start conversation,得到结果后点击图十二圈出的按钮,再点击图十三中的Download,即下载tbl文件
图十二
图十三
并确认压缩包中碱基数和原先fasta文件中的碱基数是否一致,改掉fasta和tbl文件中的物种名。