生信笔记

为小鼠(GRCm38) 构建 GATK resource bun

2020-05-27  本文已影响0人  11的雾

前提:
众所周知,GATK 为人提供了 一些 boundle resource ,但是没有提供小鼠的资源。比如
dbsnp, indel,这些都是需要自己准备的。
而在跑BaseRecalibrator 时,--known-sites是必须项。那么可以下载这些信息,自己构建为GATK所适用的格式。

下载:dbSNP GRCm38 VCF files (each chromosome is in a separate file):

wget --recursive --no-parent --no-directories \
--accept vcf*vcf.gz \
ftp://ftp.ncbi.nih.gov/snp/organisms/archive/mouse_10090/VCF/

或者直接网页上下载所有的vcf 文件:http://ftp.ncbi.nih.gov/snp/organisms/archive/mouse_10090/VCF/

PS:可以下载00-All.vcf.gz,就不需要合并,但是仍然需要修改染色体信息。

然后解压后,修改染色体信息,将数字开始的变为以chr开始的。

删除非染色体信息的vcf:vcf_chr_NotOn.vcf,等

然后合并vcf,

gatk MergeVcfs -I vcf_chr_10.vcf -I vcf_chr_14.vcf -I vcf_chr_18.vcf -I vcf_chr_3.vcf -I vcf_chr_7.vcf -I vcf_chr_11.vcf -I vcf_chr_15.vcf -I vcf_chr_19.vcf -I vcf_chr_4.vcf -I vcf_chr_8.vcf  -I vcf_chr_12.vcf -I vcf_chr_16.vcf -I vcf_chr_1.vcf -I vcf_chr_5.vcf -I vcf_chr_9.vcf  -I vcf_chr_13.vcf -I vcf_chr_17.vcf -I vcf_chr_2.vcf -I vcf_chr_6.vcf -I vcf_chr_MT.vcf -I vcf_chr_X.vcf -I vcf_chr_Y.vcf -O dbsnp.vcf.gz -R GCF_000001635.24.fa -D GCF_000001635.24.fa.dict

如果-O设置为vcf.gz,则自动创建tbi为后缀的index。

这里也要提供reference 的dict index 文件。如果没有的话可以用如下命令为reference 构建index:

gatk CreateSequenceDictionary  -R GCF_000001635.24.fa -O GCF_000001635.24.fa.dict

这里需要注意两点:

  1. 下载的vcf文件中header中的##reference=GCF_000001635.24,一定要存在该reference,就是说你用到的reference 文件名字一定要是header中的这个名字。GATK对header的要求比较严格。

  2. 下载的vcf文件中染色体的开始要和 基因组参考序列fasta文件的一致。

一定要检查文件:

下载并修改indel 文件:

wget ftp://ftp-mouse.sanger.ac.uk/REL-1505-SNPs_Indels/mgp.v5.merged.indels.dbSNP142.normed.vcf.gz \
-O mgp.v5.indels.vcf.gz

Filter for passing variants with chr added:

# adjust header

zcat mgp.v5.indels.vcf.gz | head -1000 | grep "^#" | cut -f 1-8 \
| grep -v "#contig" | grep -v "#source" \
> mgp.v5.indels.pass.chr.vcf

# keep only passing and adjust chromosome name

zcat mgp.v5.indels.vcf.gz | grep -v "^#" | cut -f 1-8 \
| grep -w "PASS" | sed 's/^\([0-9MXY]\)/chr\1/' \
>> mgp.v5.indels.pass.chr.vcf

sort

gatk SortVcf  \
  -I mgp.v5.indels.pass.chr.vcf \
  -O mgp.v5.indels.pass.chr.sort.vcf \
  -R GCF_000001635.24.fa \
  -SD GCF_000001635.24.fa.dict

That’s all.

参考:https://github.com/igordot/genomics/blob/master/workflows/gatk-mouse-mm10.md

上一篇下一篇

猜你喜欢

热点阅读