基因家族分析

interproscan linux版本安装及使用

2021-10-23  本文已影响0人  无言_俗人

说明:InterPro是一个整合了各种蛋白及其功能的数据库,内含有蛋白质所属的家族及其所包含的结构域和位点。而interproscan就是用来搜索蛋白DOMAIN的一个工具,用户可以根据自己的核苷酸序列或者蛋白序列来搜索自己序列所含的domain信息。

1.下载与安装

# 此处为最新版本5.52-86.0,64位,下载MD5文件用来检验下载的完整性
wget https://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.52-86.0/interproscan-5.52-86.0-64-bit.tar.gz
wget https://ftp.ebi.ac.uk/pub/software/unix/iprscan/5/5.52-86.0/interproscan-5.52-86.0-64-bit.tar.gz.md5

md5sum -c interproscan-5.52-86.0-64-bit.tar.gz.md5
# 返回ok则说明下载完整

#解压
tar -pxvzf interproscan-5.52-86.0-*-bit.tar.gz

# 解压完后,进入目录,查看是否安装完好,若有用法说明弹出则表示安装成功。
./interproscan.sh


# 进行初始化,此命令大致是准备好HMM模型以供hmmscan使用
python3 initial_setup.py

2.测试与相关参数说明

测试

#完成上面的步骤后,即可进行测试(以下两条命令选一即可)
./interproscan.sh -i test_all_appl.fasta -f tsv -dp
./interproscan.sh -i test_all_appl.fasta -f tsv
    # -db参数的含义:本人的理解是:含有-db则是关闭了连接EBI联网搜索的权限而使用本地化搜索,默认情况下是支持EBI联网搜索,若只需本地则使用-db。(可能不正确,大家看看就行)

参数说明

# 指定pfam搜索
./interproscan.sh -appl Pfam -i /path/to/sequences.fasta
#同时指定多个进行搜索
./interproscan.sh -appl CDD,COILS,Gene3D,HAMAP,MobiDBLite,PANTHER,Pfam,PIRSF,PRINTS,PROSITEPATTERNS,PROSITEPROFILES,SFLD,SMART,SUPERFAMILY,TIGRFAM -i /path/to/sequences.fasta
./interproscan.sh -i /path/to/sequences.fasta
# 输出结果为sequences.tsv, sequence.xml, sequences.gff3
./interproscan.sh -t n -i /path/to/sequences.fasta

....还有很多参数就不一一展示,有兴趣的可以查看官网文档

3.包含的分析

主要包含以下分析:

  • CDD
  • COLIS
  • Gene3D
  • HAMAP
  • MOBIDB
  • PANTHER
  • Pfam
  • PIRSF
  • SMART
  • ...

4.参考资料

官方文档
interproscan下载地址

上一篇 下一篇

猜你喜欢

热点阅读