注释和富集RNA-seq

EggNOG5本地化及注释

2022-06-08  本文已影响0人  谁冒充我小叮当

EggNOG5

参考:

https://www.jianshu.com/p/e5f617b7c9e1
https://www.cnblogs.com/jessepeng/p/12753721.html
http://www.chenlianfu.com/?p=2804
https://developer.aliyun.com/article/675869
https://github.com/eggnogdb/eggnog-mapper/wiki/eggNOG-mapper-v2.1.5-to-v2.1.7

(一)EggNOG简介

eggNOG数据库全称是:直系同源蛋白分组比对(evolutionary genealogy of genes: Non-supervised Orthologous Groups)数据库,由EMBL创建维护,是对NCBI的COG数据库进行拓展,提供不同分类水平蛋白的直系同源分组(Orthologous Groups,OG),包括真核、原核及病毒的数据信息。它扩展了COG数据库的分类方法,采用无监督聚类算法在全基因组范围内推导基因功能,更适用于谱系特征基因的分析。最新的数据库为EggNOG5.0。

(二)NOG、KOG、COG

NOG、KOG、COG,三者都是同源分类数据库,即都是OG(Orthologous Groups)。

(三)eggNOG mapper

conda create -n eggnog
source activate eggnog
conda install -c bioconda eggnog-mapper
 #安装eggnog-mapper

download_eggnog_data.py --data_dir ./eggnog5.0.0
#下载数据库
#不添加--data_dir选项,会将文件下载到eggnog-mapper 目录中的data目录
#在最新版本中,因为只使用了 Diamond ,只有一个数据库。因此,参数euk,bact,arch,viruses数据库都无法被识别无法识别,因为没有被使用。
#下载的数据中应包括eggnog.db.gz(功能注释数据库,用于根据比对结果进行功能注释)、eggnog_proteins.dmnd.gz(所有蛋白序列的DIMOND数据库,用于DIMOND快速序列比对)、eggnog.taxa.tar.gz
#-P:下载 PFAM 数据库所必需的。
#-M:下载 MMseqs2 数据库所必需的。整个 MMseqs2 数据库包括不属于任何 eggNOG Orthologous Group (OG) 的 eggNOG 蛋白质,而 Diamond 数据库仅包括属于 OG 的蛋白质。
#使用create_dbs.py仅创建细菌子数据库:create_dbs.py -m diamond --dbname bacteria --taxa Bacteria
wget http://eggnog5.embl.de/download/emapperdb-5.0.2/eggnog_proteins.dmnd.gz
wget http://eggnog5.embl.de/download/emapperdb-5.0.2/eggnog.db.gz
#用脚本下不了,太卡了,直接网页下载

python ~/eggnog/bin/emapper.py \
-m diamond -i virus.fasta --itype CDS --translate --cpu 20 \
--data_dir  /eggnog5.0.0/ \
--dmnd_db /eggnog5.0.0/eggnog_proteins.dmnd \
--output_dir /outdir -o virus
#比对注释
#-o:设置输出文件前缀
#--output_dir:设置输出文件夹
#-m:设置比对算法,(默认值:diamond){diamond,mmseqs,hmmer,no_search,cache}
#-i:输入查询序列(蛋白质)的FASTA文件
#--itype:输入(-i)文件中的数据类型。(默认值:proteins){CDS,proteins,genome,metagenome}
#--translate:当--itype输入CDS,在搜索之前将CDS翻译成蛋白质。当--itype genome/metagenome和--genepred搜索时,将blastx命中的预测CDS翻译成蛋白质。(默认值:False)
#--data_dir:eggnog mapper数据库的路径。默认情况下,“data/”
#--dmnd_db:当使用DIAMOND算法时,设置DIAMOND数据库路径
#--sensmode:Diamond的灵敏度模式。emapper的默认值是sensitive与diamond的默认值不同。 {default,fast,mid-sensitive,sensitive,more-sensitive,very-sensitive,ultra-sensitive}
#--no_annot:Skip functional annotation, reporting only hits.(default: False)
更具体的参数可查看emapper.py -h或http://www.chenlianfu.com/?p=2804
结果解读:
eggnog-mapper会生成三个文件:
.hits: 记录每个用于query序列对应的所有的显著性的eggNOG Orthologous Groups(OG). 所有标记为"-"则表明该序列未找到可能的OG
.seed_orthologs: 记录每个用于搜索序列对的的最佳的OG,也就是.hits里选择得分最高的结果。之后会从eggNOG中提取更精细的直系同源关系(orthology relationships)
.annotations: 该文件提供了最终的注释结果。大部分需要的内容都可以通过写脚本从从提取,一共有13列
#.annotations每一列对应的记录如下:
#1.query_name: 检索的基因名或者其他ID
#2.sedd_eggNOG_ortholog: eggNOG中最佳的蛋白匹配
#3.seed_orholog_evalue: 最佳匹配的e-value
#4.seed_ortolog_evalu: 最佳匹配的bit-score
#5.predicted_gene_name: 预测的基因名,特别指的是类似AP2有一定含义的基因名,而不是AT2G17950这类编号
#6.GO_term: 推测的GO的词条, 未必最新
#7.KEGG_KO: 推测的KEGG KO词条, 未必最新
#8.BiGG_Reactions: BiGG代谢反应的预测结果
#9.Annotation_tax_scope: 对该序列在分类范围的注释
#10.Matching_OGs: 匹配的eggNOG Orthologous Groups
#11.best_OG|evalue|score: 最佳匹配的OG(HMM模式才有)
#12.COG functional categories: 从最佳匹配的OG中推测出的COG功能分类
#13.eggNOG_HMM_model_annotation: 从最佳匹配的OG中推测出eggNOG功能描述
上一篇 下一篇

猜你喜欢

热点阅读