我的SNP calling和核心SNP(core SNP)聚类分

2020-12-12 本文已影响0人大坏蛋HYB

个人进行SNP分析用的软件是snippy，主要是可以一次批量完成。
准备工作：
1.待分析的序列文件（fastq/fasta)，可以先筛选掉冗余的序列文件。

包含每个序列文件名、所在路径的txt文件。每行一个，tab键分隔文件名和所在完整路径，并且注意该txt的编码格式(用notepad转换为unix)。例如：

a  /path/to/file/a.fasta
b  /path/to/file/b.fasta
...

3.参考基因组的gbk或者fasta文件。

运行开始 用到软件自带的批量运行程序
第一步

snippy-multi 文件名及路径.txt --reference 参考基因组.gbk --cpus 8 > run_snp.sh

第一步运行完会提示共有多少个基因组参与SNP分析，注意检查。
第二步
就是直接运行第一步输出的.sh文件：

nohup sh ./run_snp.sh &

注意运行run_snp.sh的时候所在目录即为输出文件目录，最好新建一个文件夹再把run_snp.sh转移到该文件夹后再运行。
第三步
核心SNP聚类，去掉基因重组后用snp-sites进行核心SNP分析，最后用Fasttree作树。

snippy-clean_full_aln core.full.aln > clean.full.aln
run_gubbins.py -p gubbins clean.full.aln
snp-sites -c gubbins.filtered_polymorphic_sites.fasta > clean.core.aln
FastTreeMP -gtr -nt clean.core.aln > clean.core.tree.newick

输出的newick文件就可以拿去绘制进化树了，每个基因组的SNP VCF文件保存在该文件名的文件夹中。

参考
snippy官网:https://github.com/tseemann/snippy

我的SNP calling和核心SNP(core SNP)聚类分

猜你喜欢

热点阅读