下载数据生物信息

snpEff使用说明(上)-了解及创建SnpEff注释数据库

2020-09-21  本文已影响0人  APExBIO

SnpEff是一款注释变异位点(SNP+InDel+MNP)和预测变异对基因的影响(例如氨基酸变化)的工具。

用法:

输入文件:输入是变异位点(SNP,插入,缺失和MNP)的VCF文件(一般情况下)。
输出:SnpEff分析输入变异位点并注释和计算了它们对已知基因产生的影响。

学习软件的最详细的教程当然是官方Tutorial,SnpEff官方网页。但是由于Tutorial需要讲解的参数非常多,看起来非常繁复,所以如果你急需了解SnpEff请跟着我们的步伐吧!

image.png

1. 下载

#在合适的文件夹下创建biosoft/snpeff文件
mkdir -p  ~/biosoft/snpeff
snpeffDir=~/biosoft/snpeff
#进入snpeff文件夹下
cd $snpeffDir
# 下载最新版 
wget https://snpeff.blob.core.windows.net/versions/snpEff_latest_core.zip
# 解压文件
unzip snpEff_latest_core.zip

🎈先跑一个注释的案例吧

java -Xmx4g -jar ${snpeffDir}/snpEff.jar GRCh37.75 examples/test.chr22.vcf > test.chr22.ann.vcf

#使用 命令-v可以显示更多的软件运行信息,方便debug
java -Xmx4g -jar ${snpeffDir}/snpEff.jar -v GRCh37.75 examples/test.chr22.vcf > test.chr22.ann.vcf

🎈这个例子之所以能运行,是因为我们已经创建了GRCh37.75的注释数据库,如果你第一次使用snpEff和第一次注释某个物种,需要在注释前需要准备注释的数据库,SnpEff目前已包含20,000多种参考基因组的注释库,下载方式为

cd $snpeffDir
java -jar snpEff.jar databases | less
java -jar snpEff.jar databases | grep -i musculus
java -jar snpEff.jar databases | grep -i GRCh37
##下载数据库
java -jar snpEff.jar download -v GRCh37.75

🎈但是为了保证注释库新鲜,大家可以自己创建,创建方式如下

准备文件:1. 参考基因组fasta文件; 2. 参考文件gtf注释文件。
选择性文件:3. cds文件; 4. pep文件;5. 一般注释文件

  1. 进入SnpEff安装文件夹
cd $snpeffDir
  1. 创建数据库文件夹
mkdir data/GRCh37.100
cd data/GRCh37.100
  1. 下载注释基因,官方例子是下载的ensemble注释版本70,而现在数据库已经更新到101了,我们使用release-100
wget ftp://ftp.ensembl.org/pub/release-100/gtf/homo_sapiens/Homo_sapiens.GRCh37.100.gtf.gz
mv Homo_sapiens.GRCh37.100.gtf.gz genes.gtf.gz
  1. 下载蛋白
#目的1 -稀有氨基酸注释,2- 检查从DNA序列预测的蛋白与真实蛋白匹配
wget ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/pep/Homo_sapiens.GRCh37.100.pep.all.fa.gz
mv Homo_sapiens.GRCh37.100.pep.all.fa.gz protein.fa.gz
  1. 下载CDSs
#目的:检查从DNA序列预测的CDS与真实CDS匹配
wget ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/cdna/Homo_sapiens.GRCh37.100.cdna.all.fa.gz
mv Homo_sapiens.GRCh37.100.cdna.all.fa.gz cds.fa.gz
  1. 下载一般注释文件
wget ftp://ftp.ensembl.org/pub/release-100/regulation/homo_sapiens/AnnotatedFeatures.gff.gz
mv AnnotatedFeatures.gff.gz regulation.gff.gz
#解压gz文件
gunzip *.gz

7.下载 genome基因组文件(fasta格式)

cd ../genomes/
wget ftp://ftp.ensembl.org/pub/release-100/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.100.dna.toplevel.fa.gz
mv Homo_sapiens.GRCh37.100.dna.toplevel.fa.gz GRCh37.100.fa.gz
gunzip GRCh37.100.fa.gz
  1. 编辑snpEff.config文件
vi snpEff.config
#添加文字
GRCh37.100.genome : Homo_sapiens
GRCh37.100.reference : ftp://ftp.ensembl.org/pub/release-100/gtf/
  1. 文件准备完毕,创建注释数据库
cd ~/snpeff
java -Xmx20g -jar ${snpeffDir}/snpEff.jar build -v GRCh37.100 2>&1 | tee GRCh37.100.build
上一篇下一篇

猜你喜欢

热点阅读