利用PfamScan寻找同源基因家族
2020-05-08 本文已影响0人
群体遗传学
Pfam是一个蛋白家族数据库,其中Pfam-A是手工确定的高质量的蛋白家族,Pfam-B是自动注释的,是对A的补充。目前已更新到32.0,下载地址为ftp://ftp.ebi.ac.uk/pub/databases/Pfam/releases/,任选一版本即可。
做保守结构蛋白的注释Domains,需要用到PfamScan软件,以及Pfam-A的数据库。安装后的PfamScan目录下主要有三个文件ChangeLog, pfam_scan.pl,README以及一个文件夹Bio(主要存放需要的模块)。我们这里主要用到的是pfam_scan.pl
这个perl脚本。
-
pfam_scan.pl
参数如下:
pfam_scan.pl参数
一般情况下,我们只需要用到三个参数:
-fasta
需要检索的蛋白序列的fasta文件;
-dir
存放Pfam-A数据库的目录;
-outfile
需要输出的文件名字。
- 在最终的输出结果里面,我们一般可以通过两种方式去检索自己所需要的基因:
- 已知蛋白的PF编号,如红框1;
-
已知蛋白的名字,如红框2.
结果展示