注释和富集

Eggnog-mapper(2.1.7)使用记录

2023-04-01  本文已影响0人  iBioinformatics

官方说明:
https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2.1.5-to-v2.1.8#v218
更多说明:
http://www.chenlianfu.com/?p=2804
https://developer.aliyun.com/article/675869
https://www.jianshu.com/p/0eb67d83b603
https://cloud.tencent.com/developer/article/1688675
数据库说明:
https://www.jianshu.com/p/e5f617b7c9e1
https://www.cnblogs.com/jessepeng/p/12753721.html

一、EggNOG数据库简介

(一)主页面介绍

1、e5.proteomes.faa为所有的蛋白组序列
2、e5.viruses.faa为所有的病毒蛋白序列
3、e5.taxid_info.tsv为Taxid对应的物种名称以及完整的谱系信息
4、e5.og_annotations.tsv为所有的NOG信息(第一列为Taxid,第二列为NOG groups,第三列为COG归属,第四列为Function)

(二)物种注释信息

1、TaxID版本

http://eggnog5.embl.de/download/eggnog_5.0/per_tax_level/

2、物种名版本

http://eggnog5.embl.de/#/app/downloads

(三)emapperdb-5.0.2数据库

网页位置 http://eggnog5.embl.de/download/emapperdb-5.0.2/

二、NOG、KOG和COG数据库

三、EggNOG-mapper的使用

 ##安装eggnog-mapper##
conda create -n eggnog
source activate eggnog
conda install -c bioconda eggnog-mapper

 ##下载数据库##
download_eggnog_data.py --data_dir ./eggnog5.0.0
#不添加--data_dir选项,会将文件下载到eggnog-mapper 目录中的data目录
#在最新版本中,因为只使用了 Diamond ,只有一个数据库。因此,参数euk,bact,arch,viruses数据库都无法被识别无法识别,因为没有被使用。
#下载的数据中应包括eggnog.db.gz(功能注释数据库,用于根据比对结果进行功能注释)、eggnog_proteins.dmnd.gz(所有蛋白序列的DIMOND数据库,用于DIMOND快速序列比对)、eggnog.taxa.tar.gz
#-P:下载 PFAM 数据库所必需的。
#-M:下载 MMseqs2 数据库所必需的。整个 MMseqs2 数据库包括不属于任何 eggNOG Orthologous Group (OG) 的 eggNOG 蛋白质,而 Diamond 数据库仅包括属于 OG 的蛋白质。

##使用create_dbs.py仅创建细菌子数据库##
create_dbs.py -m diamond --dbname bacteria --taxa Bacteria

##wget下载##
wget http://eggnog5.embl.de/download/emapperdb-5.0.2/eggnog_proteins.dmnd.gz
wget http://eggnog5.embl.de/download/emapperdb-5.0.2/eggnog.db.gz
#用脚本下不了,太卡了,直接网页下载

##进行比对注释##
python ~/eggnog/bin/emapper.py \
-m diamond -i virus.fasta --itype CDS --translate --cpu 20 \
--data_dir  /eggnog5.0.0/ \
--dmnd_db /eggnog5.0.0/eggnog_proteins.dmnd \
--output_dir /outdir -o virus
#比对注释
#-o:设置输出文件前缀
#--output_dir:设置输出文件夹
#-m:设置比对算法,(默认值:diamond){diamond,mmseqs,hmmer,no_search,cache}
#-i:输入查询序列(蛋白质)的FASTA文件
#--itype:输入(-i)文件中的数据类型。(默认值:proteins){CDS,proteins,genome,metagenome}
#--translate:当--itype输入CDS,在搜索之前将CDS翻译成蛋白质。当--itype genome/metagenome和--genepred搜索时,将blastx命中的预测CDS翻译成蛋白质。(默认值:False)
#--data_dir:eggnog mapper数据库的路径。默认情况下,“data/”
#--dmnd_db:当使用DIAMOND算法时,设置DIAMOND数据库路径
#--sensmode:Diamond的灵敏度模式。emapper的默认值是sensitive与diamond的默认值不同。 {default,fast,mid-sensitive,sensitive,more-sensitive,very-sensitive,ultra-sensitive}
#--no_annot:Skip functional annotation, reporting only hits.(default: False)

四、结果解读:

eggnog-mapper会生成三个文件:

转自:https://www.jianshu.com/p/c557ad124b11

上一篇 下一篇

猜你喜欢

热点阅读