01_注释软件

Variant Effect Predictor: Ensemb

2020-08-30  本文已影响0人  果蝇的小翅膀

软件说明

Ensembl VEP是一款突变注释文件,但是相关的配置比较困难。这次我们使用conda进行安装,可以跳过繁琐的环境配置过程。
http://asia.ensembl.org/info/docs/tools/vep/script/vep_download.html

通过conda安装VEP

这里我们使用conda安装VEP软件,具体的conda的用法可以参考我的往期的conda的用法说明(https://www.jianshu.com/p/e82a8d799b13)。

conda create -n vep
conda activate vep
conda search ensembl-vep
conda install ensembl-vep

配置VEP的程序

安装完成后,还需要配置相关的文件。其中默认的VEP的文件主要存储在 ~/.vep的目录下。这里我们配置GRCh37的文件

cd $HOME/.vep
wget -c  ftp://ftp.ensembl.org/pub/release-101/variation/indexed_vep_cache/homo_sapiens_vep_101_GRCh37.tar.gz
tar xzf homo_sapiens_vep_101_GRCh37.tar.gz

--Non-indexed cache (ftp://ftp.ensembl.org/pub/release-101/variation/vep/),

cd $HOME/.vep
ftp://ftp.ensembl.org/pub/release-101/variation/vep/homo_sapiens_refseq_vep_101_GRCh37.tar.gz
tar xzf homo_sapiens_vep_101_GRCh37.tar.gz

注意:When using Ensembl Genomes caches, you should use the --cache_version option to specify the relevant Ensembl Genomes version number as these differ from the concurrent Ensembl/VEP version numbers。 在后面的运行中需要指定cache的下载版本,本实例文件的版本是101。

cd $HOME/.vep
mkdir homo_sapiens
mkdir 101_GRCh37
cd homo_sapiens/101_GRCh37
wget -c ftp://ftp.ensembl.org/pub/grch37/current/fasta/homo_sapiens/dna/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
gzip -d Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz
bgzip Homo_sapiens.GRCh37.dna.primary_assembly.fa

实例运行

VEP涉及的参数很多,可以参考一下的网站 https://asia.ensembl.org/info/docs/tools/vep/script/vep_options.html

git clone https://github.com/Ensembl/ensembl-vep
cd ensembl-vep
cd examples

vep -i homo_sapiens_GRCh37.vcf --fork 4 -o homo_sapiens_GRCh37.out.vcf --assembly GRCh37 --cache --cache_version 101 --dir ~/.vep/ --offline --refseq --fasta~/.vep/homo_sapiens/101_GRCh37/Homo_sapiens.GRCh37.dna.primary_assembly.fa.gz  --force_overwrite

结果文件

参考网址:

  1. VEP的用法 https://asia.ensembl.org/info/docs/tools/vep/script/vep_options.html

码子不易,欢迎大家点赞留言。

上一篇下一篇

猜你喜欢

热点阅读