基因家族分析基因组学基因家族分析

基因家族鉴定---BITACORA

2021-03-24  本文已影响0人  MLD_TRNA

bitacora下载链接https://github.com/molevol-ub/bitacora

至于它的原理,GitHub有说明书,不再赘述。保证看完以下都会操作!!!

第一:打开runBITACORA.sh,然后如下操作:

该脚本存在于软件安装文件夹  

更新blast、hmmer、bitacora、Gemoma三个软件的对应文件夹的绝对路径                                                                    export PATH=$PATH:/home/zf/install/blast-2.7.1/bin                                                                                                          export PATH=$PATH:/home/zf/install/hmmer-3.2.1/src                                                                                                        SCRIPTDIR=/home/zf/install/bitacora-1.3/Scripts                                                                           GEMOMAP=/home/zf/install/GeMoMa-1.7.1/GeMoMa-1.7.1.jar

更新基因组、结构注释、功能注释文件路径GENOME=/mnt/hgfs/SUXIN/ShuoShi/Anoplophora_glabripennis/shuju/Aglag.fasta GFFFILE=/mnt/hgfs/SUXIN/ShuoShi/Anoplophora_glabripennis/shuju/Agla.gff ROTFILE=/mnt/hgfs/SUXIN/ShuoShi/Anoplophora_glabripennis/shuju/Aglap.fasta

query文件夹里面是近源物质的蛋白序列(来自NCBI蛋白数据库,下载的蛋白需要具备目的基因家族的全部亚家族分支,所以要建树观察后再增减筛选)、下载自Pfam的基因家族的hmmr文件(如CYP:PF00067).并以CYP_db.fasta和CYP_db.hmm命令。同时也要更新其路径QUERYDIR=/mnt/hgfs/SUXIN/ShuoShi/Anoplophora_glabripennis/P450/query

友情提示:

一般来说同一个电脑处理多个物种的基因家族时,复制移动runBITACORA.sh不用更改软件的路径,只需更改下面四个数据的路径即可。

第二:展示一下文件夹结构

某物种主文件下:

     data文件夹:genome.fa、protein.fa、xx.gff

     run文件夹:runBITACORA

     query文件夹:xxx_db.fa、xxx_db.hmm

第三:运行

在run文件夹中打开终端,输入

bash runBITACORA.sh

静静地等待吧,我的四核8G内存的电脑处理一百多兆的基因组需要十几分钟

第四:结果展示

                    鉴定出来的基因家族在CYP 文件夹,该名字对应于CYP_db.fasta。其他的都是hmmer、blast的缓存文件,                                我还没探索,因为我用不到 结果里面我只用了红线的最终文件,其他也不知道

第五:验证结果

鉴定出来的结果会在搜索过程中多鉴定一些结构域不清的序列,需要通过以下网址上传序列进行验证。然后删除出错的序列,进行后续研究。

Pfam

https://pfam.xfam.org/search#tabview=tab1

NCBI

https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi

以上两个都是默认参数,上传文件和邮箱地址即可,下面这个还没探索。

SMART

http://smart.embl-heidelberg.de/#

多序列比对,手动检查保守结构域

https://www.ncbi.nlm.nih.gov/Structure/cdd/wrpsb.cgi支持蛋白序列、核酸序列,单条

https://www.ncbi.nlm.nih.gov/Structure/bwrpsb/bwrpsb.cgi支持多条(a file),只支持蛋白序列

结果解读:https://www.sohu.com/a/216315762_419916

讲完了,请批评指正!


上一篇 下一篇

猜你喜欢

热点阅读