SnpEff 配置基因组注释文件
2018-03-23 本文已影响2149人
生物数据分析笔记
SnpEff 软件提供了绝大多数物种的基因组注释信息,但随着基因组版本的不断更新和新的更好的基因组的出现,我们有时需要将新的参考基因组注释信息添加到其本地数据集中,本文是我再田间籼稻材料蜀恢498(R498)基因组注释信息的具体步骤,记录下来,以供查阅。
1. 注释文件为 gff3 格式
参考基因组:Oryza Sativa R498
基因组序列文件:R498_Final_Version2.fasta
gff3 注释文件:R498_IGDBv3_coreset.gff
(1)首先要修改 snpEff 目录下的注释文件 snpEff.config,在“Third party databases”行下加入如下内容:
# Rice genome, version R498
R498.genome : Rice
(2)在 snpEff 目录下,创建目录 data, data/R498, data/genomes
mkdir data && cd data
mkdir R498
mkdir genomes
(3)将 gff3 (R498_IGDBv3_coreset.gff) 文件放入R498目录下,并改名为 genes.gff;将基因组序列文件(R498_Final_Version2.fasta)放入 genomes 目录下,并改名为 R498.fa
(4)在 snpEff 目录下,执行命令:
java -jar snpEff.jar build -gff3 -v R498
2. 注释文件为 gtf 格式
如果注释文件为R498.gtf,可参考 gff3 中的步骤,要将注释文件重新命名为 genes.gtf
执行命令更改为:
java -jar snpEff.jar build -gtf22 -v R498