基因组组装注释和富集

利用pep序列构建OrgDb进行富集分析(1)

2021-10-27  本文已影响0人  多啦A梦的时光机_648d

利用eggnog-mapper软件生成注释文件

准备文件:pep.fasta序列(一定是蛋白序列文件)以及eggnog-mapper软件及其数据库文件

step1: 下载eggnog-mapper软件及其数据库

1. 直接进入文件夹下面克隆,或者手动下载上传到文件夹下

$cd ~/soft/
$git clone https:github.com/jhcepas/eggnog-mapper.git

2. 下载eggnog数据库

下载地址:http://eggnog5.embl.de/download/
$gunzip eggnog.db.gz eggnog.proteins.dmnd.gz #解压
找到最新的数据库文件
下载eggnog.db.gz和eggnog.proteins.dmnd.gz文件到eggnon-mapper软件的data文件夹下

3. 把eggnog-mapper软件的路径加到环境变量里面

$echo 'export PATH=/home/spider/soft/eggnog-mapper:PATH' >> ~/.bashrc
$source ~/.bashrc

4. 配置一个python3的conda环境

利用conda创建一个python3(python>=3.7)的环境,如果有可以直接激活。

$conda create -n python3 python=3.7.8 -y ## -n 指定创建环境的名字
$conda activate python3  ## 激活环境

5. 利用eggnog-mapper和pep.fasta

$emapper.py -i pep.fasta -o eggnog -m diamond --cpu 30 
### -i 输入你的蛋白序列
### -o 输出文件的前缀
### -m 指定同源序列比对模式,当序列>1000条时候,选用diamond模式,不需要用-d来指定数据库
### --cpu 线程数

6.结果处理

运行结束会生成3个文件,其中eggnog.emapper.annotations为我们后续需要的文件

$eggnog.emapper.hit_hts:
$eggnog.emapper.seed_orthologs:
$eggnog.emapper.annotations: 该文件为注释结果,用于后续构建本物种的OrgDb的文件,其一共21列。

对eggnog.emapper.annotations文件进行预处理
*首先删掉eggnog.emapper.annotations文件开头及末尾以#开头的行,别删表头,然后利用awk提取需要的列。

$sed '/^##/d' eggnog.emapper.annotations| sed 's/#/ /'| awk -vFS='\t' '{print $1,$9,$10,$12}' > eggnog.annotations

*后续在R里面利用eggnog.annotations文件构建OrgDb。

上一篇 下一篇

猜你喜欢

热点阅读