为小鼠(GRCm38) 构建 GATK resource bun
前提:
众所周知,GATK 为人提供了 一些 boundle resource ,但是没有提供小鼠的资源。比如
dbsnp, indel,这些都是需要自己准备的。
而在跑BaseRecalibrator 时,--known-sites是必须项。那么可以下载这些信息,自己构建为GATK所适用的格式。
下载:dbSNP GRCm38 VCF files (each chromosome is in a separate file):
wget --recursive --no-parent --no-directories \
--accept vcf*vcf.gz \
ftp://ftp.ncbi.nih.gov/snp/organisms/archive/mouse_10090/VCF/
或者直接网页上下载所有的vcf 文件:http://ftp.ncbi.nih.gov/snp/organisms/archive/mouse_10090/VCF/
PS:可以下载00-All.vcf.gz,就不需要合并,但是仍然需要修改染色体信息。
然后解压后,修改染色体信息,将数字开始的变为以chr开始的。
删除非染色体信息的vcf:vcf_chr_NotOn.vcf,等
然后合并vcf,
gatk MergeVcfs -I vcf_chr_10.vcf -I vcf_chr_14.vcf -I vcf_chr_18.vcf -I vcf_chr_3.vcf -I vcf_chr_7.vcf -I vcf_chr_11.vcf -I vcf_chr_15.vcf -I vcf_chr_19.vcf -I vcf_chr_4.vcf -I vcf_chr_8.vcf -I vcf_chr_12.vcf -I vcf_chr_16.vcf -I vcf_chr_1.vcf -I vcf_chr_5.vcf -I vcf_chr_9.vcf -I vcf_chr_13.vcf -I vcf_chr_17.vcf -I vcf_chr_2.vcf -I vcf_chr_6.vcf -I vcf_chr_MT.vcf -I vcf_chr_X.vcf -I vcf_chr_Y.vcf -O dbsnp.vcf.gz -R GCF_000001635.24.fa -D GCF_000001635.24.fa.dict
如果-O设置为vcf.gz,则自动创建tbi为后缀的index。
这里也要提供reference 的dict index 文件。如果没有的话可以用如下命令为reference 构建index:
gatk CreateSequenceDictionary -R GCF_000001635.24.fa -O GCF_000001635.24.fa.dict
这里需要注意两点:
-
下载的vcf文件中header中的##reference=GCF_000001635.24,一定要存在该reference,就是说你用到的reference 文件名字一定要是header中的这个名字。GATK对header的要求比较严格。
-
下载的vcf文件中染色体的开始要和 基因组参考序列fasta文件的一致。
一定要检查文件:
下载并修改indel 文件:
wget ftp://ftp-mouse.sanger.ac.uk/REL-1505-SNPs_Indels/mgp.v5.merged.indels.dbSNP142.normed.vcf.gz \
-O mgp.v5.indels.vcf.gz
Filter for passing variants with chr added:
# adjust header
zcat mgp.v5.indels.vcf.gz | head -1000 | grep "^#" | cut -f 1-8 \
| grep -v "#contig" | grep -v "#source" \
> mgp.v5.indels.pass.chr.vcf
# keep only passing and adjust chromosome name
zcat mgp.v5.indels.vcf.gz | grep -v "^#" | cut -f 1-8 \
| grep -w "PASS" | sed 's/^\([0-9MXY]\)/chr\1/' \
>> mgp.v5.indels.pass.chr.vcf
sort
gatk SortVcf \
-I mgp.v5.indels.pass.chr.vcf \
-O mgp.v5.indels.pass.chr.sort.vcf \
-R GCF_000001635.24.fa \
-SD GCF_000001635.24.fa.dict
That’s all.
参考:https://github.com/igordot/genomics/blob/master/workflows/gatk-mouse-mm10.md