转录组分析生信

震惊!!KEGG官方工具能够完成任何物种的KEGG注释!!!

2022-01-16  本文已影响0人  老饕_Ljw

写在前面


一、网页版KofamKOALA


点击提交任务之后需要在邮件中二次确认,提交任务





注释完成之后,点击邮件中的链接


二、本地化KofamKOALA

下载 KOfam 和 KofamScan


下载并解压KOfam

wget https://www.genome.jp/ftp/db/kofam/ko_list.gz
wget https://www.genome.jp/ftp/db/kofam/profiles.tar.gz
#下载完成之后解压
gunzip ko_list.gz
tar -xzvf profiles.tar.gz

下载并解压kofam_scan

wget https://www.genome.jp/ftp/tools/kofam_scan/kofam_scan-1.3.0.tar.gz
tar -xzvf kofam_scan-1.3.0.tar.gz

将kofam_scan加入环境变量

echo export PATH=/home/jiawei_li/tools/kofamscan/kofam_scan-1.3.0:\$PATH >> ~/.bashrc
source ~/.bashrc

安装依赖,KofamScan需要Ruby,HMMER和GNU Parallel

#版本需求
- Ruby >= 2.4
- HMMER >= 3.1
- GNU Parallel

conda安装Ruby,自己编译也行 但是我比较懒折腾。。。

conda install -c conda-forge ruby
wget https://cache.ruby-lang.org/pub/ruby/3.1/ruby-3.1.0.tar.gz
tar -xzvf ruby-3.1.0.tar.gz
cd cd ruby-3.1.0
./configure
make
make install
conda install -c bioconda hmmer
conda install -c conda-forge parallel

修改配置文件,指定依赖软件以及KOfam的路径

首先获取相关软件的路径(注意:配置文件中不需要指定Ruby的路径,但是需要确保Ruby加入了环境变量,能够直接调用)

which parallel  hmmscan
#/tools/parallel
#~/miniconda3/bin/hmmscan

使用官方模板,修改配置文件

cd kofam_scan-1.3.0
cp config-template.yml config.yml
# Path to your KO-HMM database
# A database can be a .hmm file, a .hal file or a directory in which
# .hmm files are. Omit the extension if it is .hal or .hmm file
profile: /home/jiawei_li/tools/kofamscan/profiles

# Path to the KO list file
ko_list: /home/jiawei_li/tools/kofamscan/ko_list

# Path to an executable file of hmmsearch
# You do not have to set this if it is in your $PATH
#hmmsearch: /home/jiawei_li/miniconda3/bin/hmmscan

# Path to an executable file of GNU parallel
# You do not have to set this if it is in your $PATH
#parallel: /tools/parallel

# Number of hmmsearch processes to be run parallelly
cpu: 8

对蛋白序列进行注释(注意:注释序列必须为蛋白序列)

exec_annotation -o test.querry2KO --cpu 8 --format mapper -E 1e-5 test.pep.fa
#help文档中的解释
  -f, --format <format>      Format of the output [detail]
      detail:          Detail for each hits (including hits below threshold)
      detail-tsv:      Tab separeted values for detail format
      mapper:          KEGG Mapper compatible format
      mapper-one-line: Similar to mapper, but all hit KOs are listed in one line
  1. --format mapper对每一个Gene ID只保留最佳的KO Number,结果文件只含有Gene ID和KO Number的映射信息。
  2. --format detail保留所有信息,包括Gene ID对应上的每一个KO Number,比对分数,E-value以及KO Number的详细信息等。

    最后,拿到query2KO文件之后,就可以用其当背景文件,使用TBtools对基因集做富集分析啦

写在后面

学期末了,祝各位老铁这学期的奋斗都有所收获!
大家都能回家安心过个好年,见见许久未见的老友哈哈

上一篇下一篇

猜你喜欢

热点阅读