Inparanoid 寻找物种间直系同源基因

2024-04-02  本文已影响0人  风知秋

InParanoid 是一个用于寻找直系同源基因(Orthologs)的计算机程序,其目标是发现不同物种之间具有相似功能的基因。

软件下载安装:

git clone https://bitbucket.org/sonnhammergroup/inparanoid.git

或者

wget   https://bitbucket.org/sonnhammergroup/inparanoid/get/d0690ac396ac.zip

在运行的时候,系统有报错,报错内容为:

Can't locate Parallel/ForkManager.pm in @INC (you may need to install the Parallel::ForkManager module) (@INC contains: /build/Cellar/anaconda2/lib/site_perl/5.26.2/x86_64-linux-thread-multi /build/Cellar/anaconda2/lib/site_perl/5.26.2 /build/Cellar/anaconda2/lib/5.26.2/x86_64-linux-thread-multi /build/Cellar/anaconda2/lib/5.26.2 .) at inparanoid.pl line 116.BEGIN failed--compilation aborted at inparanoid.pl line 116.

缺少 Parallel::ForkManager 模块。

下载安装 perl 的 Parallel::ForkManager 模块:

wget   https://cpan.metacpan.org/authors/id/Y/YA/YANICK/Parallel-ForkManager-2.02.tar.gz

tar    zxvf   Parallel-ForkManager-2.02.tar.gz

perl   MANIFEST   INSTALL_BASE=/home/xx/

make

make   install

将路径添加到  ~/.bashrc  中的环境变量:

export   PERL5LIB=/home/xx/lib/perl5:$PERL5LIB

就 ok 了。

环境依赖

软件的运行需要提前安装好 DIAMOND 和 BLAST。

## 安装 DIAMOND 

wget http://github.com/bbuchfink/diamond/releases/download/v2.0.8/diamond-linux64.tar.gz

tar xzf diamond-linux64.tar.gz

## 高版本的软件需要 GLIBC_2.17,系统上没有该版本,低版本的软件没有这个问题。

## 安装 BLAST

wget ftp://ftp.ncbi.nlm.nih.gov/blast/executables/legacy.NOTSUPPORTED/2.2.18/blast-2.2.18-x64-linux.tar.gz 

tar xvfz blast-2.2.18-x64-linux.tar.gz

软件运行

## 运行示例文件,全部使用默认参数

perl   inparanoid.pl   -input-dir   ./testInput/

可选参数:

- f1                物种 A 的蛋白质序列的 FASTA 文件。

- f2                物种 B 的蛋白质序列的 FASTA 文件。

- outgroup     作为外类群的物种 C 的蛋白质序列的 FASTA 文件(可选,默认无).

- input-dir        包含多个物种蛋白质序列的 FASTA 文件的目录。将运行所有物种之间的比对。如果使用了此选项,则将 -f1 和 -f2 留空。

- out-dir        指定输出文件的目录.

- seq-tool        用于序列相似性比对的工具。可选项为 Diamond 或 Blast(默认为 Diamond)。

- 2pass        运行两遍比对策略。不适用于 Diamond,但推荐用于 Blast(默认为 False)。

- bootstrap        运行引导法以估计正交基因的置信度(默认为 False)。

- seedscore        计算 seedscore 以估计正交基因的置信度(默认为 False)。

- score-cutoff        设置位分数阈值。任何低于此分数的匹配将被忽略(默认为 40)。

- seq-cutoff        设置序列重叠阈值。匹配区域应至少覆盖较长序列的此部分。匹配区域是从第一个片段的开始到最后一个片段的结束(默认为 0.5)。

- seg-cutoff        设置片段覆盖率阈值。匹配片段必须覆盖较长序列的此部分(默认为 0.25)。

- conf-cutoff        置信度阈值。在这个置信度或更高的情况下,将包括内源同源基因。默认值为 0.05。

- grp-cutoff        组重叠阈值。如果一个组中的正交基因在另一个组中的置信度超过此值,那么这两个组将被合并。默认值为 0.5。

- sensitivity    Diamond 的敏感度设置。Diamond 提供了多种敏感度模式,可以根据具体需求选择。可选项包括 mid-sensitive(中等敏感度)、sensitive(敏感度)、more-sensitive(更高敏感度)、very-sensitive(非常敏感度)和 ultra-sensitive(超敏感度)。默认值为 very-sensitive。

结果文件

SQLtable 文件以制表符分割,每行是一个蛋白序列,每一列内容分别是:

Group-id      Score    Species   Confidence-score    Protein-name

序列分析原始文件:

ProteinA      ProteinB     Score     LengthA     LengthB      Length-MatchingRegionA      Length-MatchingRegionB      Total-Length-of-MatchA     Total-Length-of-MatchB     Location-of-Matches

上一篇 下一篇

猜你喜欢

热点阅读