利用pep序列构建OrgDb进行富集分析(1)
2021-10-27 本文已影响0人
多啦A梦的时光机_648d
利用eggnog-mapper软件生成注释文件
准备文件:pep.fasta序列(一定是蛋白序列文件)以及eggnog-mapper软件及其数据库文件
step1: 下载eggnog-mapper软件及其数据库
1. 直接进入文件夹下面克隆,或者手动下载上传到文件夹下
$cd ~/soft/
$git clone https:github.com/jhcepas/eggnog-mapper.git
2. 下载eggnog数据库
下载地址:http://eggnog5.embl.de/download/
$gunzip eggnog.db.gz eggnog.proteins.dmnd.gz #解压
找到最新的数据库文件
下载eggnog.db.gz和eggnog.proteins.dmnd.gz文件到eggnon-mapper软件的data文件夹下
3. 把eggnog-mapper软件的路径加到环境变量里面
$echo 'export PATH=/home/spider/soft/eggnog-mapper:PATH' >> ~/.bashrc
$source ~/.bashrc
4. 配置一个python3的conda环境
利用conda创建一个python3(python>=3.7)的环境,如果有可以直接激活。
$conda create -n python3 python=3.7.8 -y ## -n 指定创建环境的名字
$conda activate python3 ## 激活环境
5. 利用eggnog-mapper和pep.fasta
$emapper.py -i pep.fasta -o eggnog -m diamond --cpu 30
### -i 输入你的蛋白序列
### -o 输出文件的前缀
### -m 指定同源序列比对模式,当序列>1000条时候,选用diamond模式,不需要用-d来指定数据库
### --cpu 线程数
6.结果处理
运行结束会生成3个文件,其中eggnog.emapper.annotations为我们后续需要的文件
$eggnog.emapper.hit_hts:
$eggnog.emapper.seed_orthologs:
$eggnog.emapper.annotations: 该文件为注释结果,用于后续构建本物种的OrgDb的文件,其一共21列。
对eggnog.emapper.annotations文件进行预处理
*首先删掉eggnog.emapper.annotations文件开头及末尾以#开头的行,别删表头,然后利用awk提取需要的列。
$sed '/^##/d' eggnog.emapper.annotations| sed 's/#/ /'| awk -vFS='\t' '{print $1,$9,$10,$12}' > eggnog.annotations
*后续在R里面利用eggnog.annotations文件构建OrgDb。