使用pfam-scan进行预测
2020-06-07 本文已影响0人
夕颜00
一、 安装
- 使用conda安装Pfam_scan
$ conda create -n pfam_scan ##可新建一个环境,用于安装pfam-scan
$ source activate pfam_scan
$ conda install pfam_scan
pfam_scan依赖bioperl,因此,通过conda安装简单快捷.
- 安装hmmer3 , 使用以下命令安装:
$ wget http://eddylab.org/software/hmmer/hmmer-3.2.tar.gz
$ tar -xzvf hmmer-3.2.1.tar.gz
$ cd hmmer-3.2
$ ./configure
$ make
$ make check
$ make install
# 添加至环境变量
vim ~/.bashrc
export PATH=/usr/local/bin:$PATH
# 环境变量立即生效
source ~/.bashrc
- 数据库下载:ftp://ftp.ebi.ac.uk/pub/databases/Pfam/current_release/
下载三个文件:
Pfam-A.hmm.dat.gz
Pfam-A.hmm.gz
active_site.dat.gz
最新版的Pfam数据库不再有Pfam-B了。
wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/Pfam-A.hmm.gz
wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/Pfam-A.hmm.dat.gz
wget ftp://ftp.ebi.ac.uk:21/pub/databases/Pfam/current_release/active_site.dat.gz
gunzip *.gz
- 通过hmmerspress来把下载的数据建库:
$ hmmpress Pfam-A.hmm
二、软件使用
参数说明:
-dir : Pfam_data_file_dir 包含Pfam数据文件的目录[必须]
-fasta : fasta_file 包含序列的输入文件名 [必须]
-e_seq 序列E-value阈值 [不指定则使用默认阈值]
-e_dom 结构域E-value阈值 [不指定则使用默认阈值]
-b_seq 序列bit score阈值 [不指定则使用默认阈值]
-b_dom 结构域bit score阈值[不指定则使用默认阈值]
-align 在结果中显示比对片段 [默认关闭]
-as 预测Pfam-A数据库匹配的active sites[默认关闭]
-json [pretty] 输出结果使用JSON格式。例如指定值为[pretty],则输出结果会使用"pretty" JSON格式输出 [默认关闭]
-cpu 并行工作的CPU数目 [默认全部]
-translate [mode] 将输入序列视为DNA,并在搜索前使用6框翻译的方法进行转换。如果翻译模式[mode]被指定,则必须为"all"或者"orf"。"all"表示完整翻译,包括终止子并且不产生单独的ORFs;"orf"表示只翻译和报告长度大于20的ORFs。
如果使用了翻译参数而没有指定翻译模式,则默认使用"orf"模式。[默认关闭]
- 例子
$ pfam_scan.pl -fasta ~/protein1.fa -dir ~/bio_softs/Pfam-A.hmm/ -outfile results_3.fa -as
<meta charset="utf-8">
三、结果格式
imagepfamscan蛋白结构域部分分析结果说明如下:
(1) seq_id:转录本ID+[0,1,2],不存在于列表中的转录本为noncoding
(2) hmm start:比对到结构域的起始位置
(3) hmm end:比对到结构域的终止位置
(4) hmm acc:比对到pfam结构域的ID
(5) hmm name:pfam结构域名称
(6) hmm length:pfam结构域的长度
(7) bit score:比对打分分值
(8) E-value:比对的E值,pfam结构域筛选的条件是: Evalue < 0.001