BPGA分析细菌泛基因组

2021-04-11 本文已影响0人胡童远

导读

BPGA是Bacterial Pan Genome Analysis tool的简写，16年发表的工具，17年最后一版更新，内置KEGG COG数据（老了），依赖usearch（32bit 可免费用），速度很快，其他一般，win linux均支持，可做参考。

文献：BPGA- an ultra-fast pan-genome analysis pipeline. sci rep 2016
引用：293

1 下载，解压，获取依赖usearch gnuplot，配置，启动

官网：https://iicb.res.in/bpga/index.html，下载，解压，BPGA

usearch官网：http://www.drive5.com/usearch/download.html
下载，解压，重命名为usearch.exe，移动到BPGA bin文件夹，

根据BPGA User Guide，下载安装gnuplot。

启动BPGA进行初始化，正常启动，

2 泛基因组分析 -- 默认

准备【1】> 蛋白文件【4】> 选择文件 > 默认分析【2】> usearch聚类 > 50%一致性 > 等待。。。

一大堆结果文件，然后，

exclusively absent genes/proteins：
orthologous families that contain genes from all genomes except one specific genome

这里列出的是每个基因组的基因分类，全部加和是远高于泛基因组基因数的。Supporting_files/pan_default.txt给出了泛基因组基因数，如下。不仅如此Sequences中的代表性序列的加和也是泛基因组基因数。

泛基因组和核心基因组增长趋势：

各基因组基因家族数：

新基因数（与某一基因组相比？？？）：

3 高级分析

完成后一大堆结果，
泛基因组和核心基因组，又来？？？：

image.png

系统发生树 -- 泛基因组 & 核心基因组：

KEGG注释分类：

COG注释分类：

实战：Linux中使用BPGA

获取Linux版BPGA，获取Linux版usearch到BPGA bin文件夹
启动

./BPGA-Version-1.3

基础pangenome分析：
1 INPUT PREPARATION FOR CLUSTERING
2 Use any Protein Fasta files
3 enter full path to the Directory where *.fasta
4 DEFAULT PAN GENOME ANALYSIS
5 Use USEARCH Clustring Algorithm (Ultra-fast)
6 Choose Sequence Identity Cut-off for Clustering: 0.8

其他过程同window版本，其实也就是输入文件指定略有不同，似乎如此。

节点132G内存，使用4G足以，大数据更加耗内存

高级分析 - 进化分析：
1 Neighbour Joining Tree (NJ)：pan phylogeny
2 MLST based core phylogeny
3 Neighbour Joining Tree (NJ): core gene phylogeny

默认仅获得pan phylogenetic nwk，在此建树则有core phylogenetic nwk

结果整理

out="result"
mkdir $out
mv gi_name $out
mv INPUT_all.seq $out
mv list $out
mv Results $out
mv Sequences $out
mv Supporting_files $out

更多阅读：
BPGA - 一款泛基因组分析软件

BPGA分析细菌泛基因组

导读

1 下载，解压，获取依赖usearch gnuplot，配置，启动

2 泛基因组分析 -- 默认

3 高级分析

实战：Linux中使用BPGA

猜你喜欢

热点阅读