细胞器基因组(叶绿体、线粒体)组装神器GetOrganelle介
GetOrganelle是中国科学院昆明植物研究所金建军和郁文彬两位老师共同开发的质体组装软件,论文发表在Genome Biology,十分简单易用,对没有计算机基础的使用者十分友好。
1、安装
软件可以直接使用conda进行安装
conda create -n chloroplast #创建一个虚拟环境
conda install -n chloroplast getorganelle #将getorganelle安装在虚拟环境中
conda activate chloroplast #激活虚拟环境
get_organelle_config.py --add embplant_pt,embplant_mt #下载参考序列
注意:这里可能会出现报错:Bowtie2 is not available!,可以通过conda重新安装Bowtie2,然后升级到最新版本,如果不成功的话删除conda环境中的Bowtie2相关文件(rm ~/.conda/envs/getorganelle/bin/Bowtie2*),下载安装Bowtie2并添加环境变量中。
然后,运行 GetOrganelle.
2、命令介绍
get_organelle_from_reads.py -1 sample_1.fastq.gz -2 sample_2.fastq.gz -F embplant_pt -o output-plastome -R 10 -t 1 -k 21,45,65,85,105
命令中的参数说明
-1和-2 正向和反向测序原始数据文件 (如果是单向测序, -u)
-F 设定要组装的基因组类型*
-o 结果输出保存的目录(文件夹)名称
-R 提取叶绿体基因 reads 的轮次(轮次越多,耗时越长)
-t 并行使用 CPU 的数量(多核可提速)
-k 调用SPAdes进行 denovo组装的k-mer,数值必须是奇数, 最大值是127
*基因组类型:embplant_pt(高等植物叶绿体), embplant_mt(高等植物线粒体)和 embplant_nr(高等植物核糖体 RNA), animal_mt (动物线粒体), fungus_mt (真菌线粒体)
组装高等植物线粒体基因组的命令
get_organelle_from_reads.py -1 sample_1.fastq.gz -2 sample_2.fastq.gz -w 0.6 -F embplant_mt -o output-mitochondria -R 30 -k 21,45,65,85,105
组装高等植物核糖体 DNA的命令
get_organelle_from_reads.py -1 sample_1.fastq.gz -2 sample_2.f
--assembly命令
从现有的装配图中提取质体基因组(.fastg/.gfa;例如长读测序组件):
常用推荐的命令(高等植物叶绿体基因组)
get_organelle_from_assembly.py -g assembly_graph.fastg -F embplan
命令中的参数说明
-g SPAdes组装得到的FASTG的assembly graph
-F 设定要组装的基因组类型
-o 结果输出保存的目录(文件夹)名称
其他参数的命令(高等植物叶绿体基因组)
get_organelle_from_assembly.py -g assembly_graph.fastg -F embplant_pt -o output-plastome --min-depth 10 --max-depth 10000
命令中的参数说明
-g SPAdes组装得到的FASTG的assembly graph
-F 设定要组装的基因组类型
-o 结果输出保存的目录(文件夹)名称
--min-depth 剔除graph中depth低于阈值的contigs
--max-depth 剔除graph中depth高于阈值的contigs
--min-depth 10 ”和“--max-depth10000”这两条命令是备选的,具体的depth需要可以自行设定。
graph.gfa命令
使用Bandage编辑保存是graph.gfa后*
gfa_to_fastg.py graph.gfa
get_organelle_from_assembly.py -g graph.gfa.fastg -F embplant_pt -o output-plastome --no-slim
命令中的参数说明
-g Bandage梳理后转换为fastg的graph*
-F 设定要组装的基因组类群:embplant_pt(叶绿体),embplant_mt(线粒体)和embplant_nr(核糖体 RNA)
-o 结果输出保存的目录(文件夹)名称
*,使用Bandage编辑后,可以“merge all possible nodes”,然后再输出的文件格式gfa图形文件,gfa文件可以用gfa_to_fastg.py做一下转换。虽然gfa也是图形文件,但是图形内容与fastg有差异些复杂图形会输出失败。