GATK4.1 call SNP
2020-12-24 本文已影响0人
陈光辉_山东花生
GATK4.0 和之前的版本相比还是有较大的不同,更加趋于流程化。
软件安装
1 wget https://github.com/broadinstitute/gatk/releases/download/4.1.5.0/gatk-4.1.5.0.zip
2 unzip gatk-4.1.5.0.zip
#该安装步骤仅供参考,需要加入环境变量才可以直接调用
下载GATK
wget https://github.com/broadinstitute/gatk/releases/download/4.1.9.0/gatk-4.1.9.0.zip
unzip gatk-4.1.9.0.zip
#进入环境变量修改PATH,很重要
sudo vi /etc/profile
#添加下面的PATH
# export PATH=$PATH:/home/zhiwufy/biosoft/gatk-4.1.9.0
source /etc/profile
- 目前最新版是4.1.9.0
- 全部的版本链接在:https://github.com/broadinstitute/gatk/releases
下载后解压
image# 在该目录下
conda env create -n gatk -f gatkcondaenv.yml -y
# 本次安装 -y参数 出错,原因未知 去掉 -y
检查是否成功
python -c "import vqsr_cnn"
# 出现:Using TensorFlow backend,则成功
# 出现:ImportError: No module named vqsr_cnn,则失败
#报错:ModuleNotFoundError: No module named 'numpy.testing.decorators'
#原因 numpy 版本不匹配!
pip uninstall numpy
pip install numpy==1.18 # > 1.18
pip install scipy==1.1.0
python -c "import vqsr_cnn"
#通过验证
如果以后要更新gatk
需要先卸载掉原来的小环境,再重新安装,否则会产生报错,比如:
CondaValueError: prefix already exists: /anaconda2/envs/gatk
安装的正确方法:
source deactivate
conda env remove -n gatk
# 然后重新运行上面的安装代码
另外gatk运行还需要依赖Java
先进入到gatk小环境,再安装openjdk即可
apt-cache search openjdk
conda install -c conda-forge openjdk
sudo apt-get install openjdk-8-jdk
GATK 简单说明
## 帮助信息
gat --help
## 列出所有的工具
gatk --list
## 工具的说明,比如以VariantAnnotator 为例
gatk VariantAnnotator --help
GATK分析简要流程
-
所需数据 : ref.fa
- reads1.fq
- reads2.fq
-
建立索引(本人使用的是hisat2,结果差异不大)
bwa index ref.fa
samtools faidx ref.fa
gatk CreateSequenceDictionary -R ref.fa -O ref.dict
gatk CreateSequenceDictionary -R Tifrunner2.fasta
##
-R Input reference fasta or fasta.gz Required
-O 输出文件
-
比对
## bwa 比对
bwa mem -t 4 -R '@RG\tID:id1\tPL:illumina\tSM:test' ref.fa test_1.fq test_2.fq | samtools view -bS - >test.bam
##参数
-R 设置reads group,gatk必须要的信息,其中ID,PL和SM信息是必须要的
## 排序
samtools sort -@ 3 -o test.sorted.bam test.bam
rm test.bam
GATK 要求read group的格式
ID = Read group identifier
每一个read group 独有的ID,每一对reads 均有一个独特的ID,可以自定义命名;
PL = Platform
测序平台;ILLUMINA, SOLID, LS454, HELICOS and PACBIO,不区分大小写;
SM = sample
reads属于的样品名;SM要设定正确,因为GATK产生的VCF文件也使用这个名字;
LB = DNA preparation library identifier
对一个read group的reads进行重复序列标记时,需要使用LB来区分reads来自那条lane;有时候,同一个库可能在不同的lane上完成测序;为了加以区分,
同一个或不同库只要是在不同的lane产生的reads都要单独给一个ID. 一般无特殊说明,成对儿read属于同一库,可自定义,比如:library1
若是忘记添加read group信息还以通过 AddOrReplaceReadGroups 添加
gatk AddOrReplaceReadGroups -I .bam -O .add.bam -LB library1 -PL illumina -PU pl1 -SM name
##参数
-I Input file (BAM or SAM or a GA4GH url);
-O Output file (BAM or SAM);
-LB Read-Group library;
-PL Read-Group platform (e.g. ILLUMINA, SOLID);
-PU Read-Group platform unit (eg. run barcode);
-SM Read-Group sample name
## 建立索引
samtools index test.sorted.markup.bam
-
标记重复序列
gatk MarkDuplicates -I test.sorted.bam -O test.sorted.markdup.bam -M test.sorted.markdup_metrics.txt3 ##参数
-I 排序后的一个或者多个bam或者sam文件
-M 输出重复矩阵
-O 输出文件
# 建立索引
samtools index test.sorted.markup.bam
-
检测变异
##两种方法
##(1)多样本一起call,此次只有一个样本,若有多个样本,则继续用 -I 参数添加即可
gatk --java-options -Xmx4G HaplotypeCaller -I test.sorted.markup.bam -O test.gvcf1 -R ref.fa
## (2)单个样本call,然后在合并
## 生成中间文件gvcf
gatk --java-options -Xmx4G HaplotypeCaller -I test.sorted.markup.bam -O test.gvcf -R ref.fa --emit-ref-confidence GVCF
##通过gvcf检测变异, -V 添加上步得到的gvcf
gatk GenotypeGVCFs -R ref.fa -V test.gvcf -O test.vcf
##参数
-I BAM/SAM/CRAM file
-O 输出文件
-R 参考基因组
--java-options: 若设置java则需要添加
-Xmx4G:内存为4G,防止内存太大
-V A VCF file containing variants
-
提取SNP,INDEL
## 提取SNP
gatk SelectVariants -V test.vcf -O test.snp.vcf --select-type-to-include SNP
## 提取INDEL
gatk SelectVariants -V test.vcf -O test.indel.vcf --select-type-to-include INDEL
##参数
-O 输出vcf文件
-V 输入vcf文件
--select-type-to-include 选择提取的变异类型{NO_VARIATION, SNP, MNP, INDEL,
SYMBOLIC, MIXED}
-
对vcf文件进行过滤
gatk VariantFiltration -O test.snp.fil.vcf.temp -V test.snp.vcf --filter-expression 'QUAL < 30.0 || QD < 2.0 || FS > 60.0 || SOR > 4.0' \
--filter-name lowQualFilter --cluster-window-size 10 --cluster-size 3 --missing-values-evaluate-as-failing
## 参数
-O 输出filt.vcf文件
-V 输入vcf文件
--filter-expression 过滤条件, VCF INFO 信息
--cluster-window-size 以10个碱基为一个窗口
--cluster-size 10个碱基为窗口,若存在3以上个则过滤
--filter-name 被过滤掉的SNP不会删除,而是给一个标签, 比如 Filter
--missing-values-evaluate-as-failing 当筛选标准比较多的时候,可能有一些位点没有筛选条件当中的一条或几条,例如下面的这个表达式;QUAL < 30.0 || QD < 2.0 || FS > 60.0 || MQ < 40.0 || HaplotypeScore > 13.0 并不一定所有位点都有这些信息,这种情况下GATK运行的时候会报很多WARNING信息,用这个参数可以把这些缺少某些FLAG的位点也给标记成没有通过筛选的。
-
筛选PASS的SNP,INDEL
## 根据FILTER那列信息进行筛选
grep PASS test.snp.fil.vcf.temp > test.snp.fil.vcf