BPGA分析细菌泛基因组
导读
BPGA是Bacterial Pan Genome Analysis tool的简写,16年发表的工具,17年最后一版更新,内置KEGG COG数据(老了),依赖usearch(32bit 可免费用),速度很快,其他一般,win linux均支持,可做参考。
文献:BPGA- an ultra-fast pan-genome analysis pipeline. sci rep 2016
引用:293
1 下载,解压,获取依赖usearch gnuplot,配置,启动
官网:https://iicb.res.in/bpga/index.html,下载,解压,BPGA
usearch官网:http://www.drive5.com/usearch/download.html
下载,解压,重命名为usearch.exe,移动到BPGA bin文件夹,
根据BPGA User Guide,下载安装gnuplot。
启动BPGA进行初始化,正常启动,
2 泛基因组分析 -- 默认
准备【1】> 蛋白文件【4】> 选择文件 > 默认分析【2】> usearch聚类 > 50%一致性 > 等待。。。
一大堆结果文件,然后,
exclusively absent genes/proteins:
orthologous families that contain genes from all genomes except one specific genome
这里列出的是每个基因组的基因分类,全部加和是远高于泛基因组基因数的。Supporting_files/pan_default.txt给出了泛基因组基因数,如下。不仅如此Sequences中的代表性序列的加和也是泛基因组基因数。
泛基因组和核心基因组增长趋势:
各基因组基因家族数:
新基因数(与某一基因组相比???):
3 高级分析
完成后一大堆结果,
泛基因组和核心基因组,又来???:
系统发生树 -- 泛基因组 & 核心基因组:
KEGG注释分类:
COG注释分类:
实战:Linux中使用BPGA
获取Linux版BPGA,获取Linux版usearch到BPGA bin文件夹
启动
./BPGA-Version-1.3
基础pangenome分析:
1 INPUT PREPARATION FOR CLUSTERING
2 Use any Protein Fasta files
3 enter full path to the Directory where *.fasta
4 DEFAULT PAN GENOME ANALYSIS
5 Use USEARCH Clustring Algorithm (Ultra-fast)
6 Choose Sequence Identity Cut-off for Clustering: 0.8
其他过程同window版本,其实也就是输入文件指定略有不同,似乎如此。
节点132G内存,使用4G足以,大数据更加耗内存
高级分析 - 进化分析:
1 Neighbour Joining Tree (NJ):pan phylogeny
2 MLST based core phylogeny
3 Neighbour Joining Tree (NJ): core gene phylogeny
默认仅获得pan phylogenetic nwk,在此建树则有core phylogenetic nwk
结果整理
out="result"
mkdir $out
mv gi_name $out
mv INPUT_all.seq $out
mv list $out
mv Results $out
mv Sequences $out
mv Supporting_files $out
更多阅读:
BPGA - 一款泛基因组分析软件