GWAS专题

处理SLAF测序数据注意事项

2020-05-28  本文已影响0人  斩毛毛

最近需要根据一批SLAF数据用于构建遗传图,发现在处理数据的时候有很多坑,现简要概述

数据比对后不要去除PCR重复

当我选用GATK进行call snp时,发现结果中很多位点并没有reads覆盖,或者覆盖度非常低,最终排查后,发现我对bam文件进行了去重复

但是我已经使用\color{red}{MarkDuplicates}标记了重复,也不慌,不需要重新进行比对,只需要在运行\color{red}{HaplotypeCaller}时添加 \color{red}{-DF}参数即可;如下

soft/gatk-4.1.5.0/gatk --java-options -Xmx4G HaplotypeCaller -DF NotDuplicateReadFilter \
      -I test.sorted.markdup.bam \
      -O test.g.vcf  -R ref.fa  \
       --emit-ref-confidence GVCF

其中 \color{red}{DF}\color{red}{disable-read-filter}的缩写

对SNP过滤时又些参数不能用

一般使用GATK call snp的时候,可以选用参数有如下

QD > 2.0
FS > 60.0
MQ > 40.0
MQRankSum > -12.5
ReadPosRankSum > -8.0
SOR > 3.0

但是SLAF测序并不是对整个基因组进行测序,而是根据酶切位点进行,所以,涉及到strand bias有关的标准在过滤时,也就是FS > 60.0 SOR > 3.0时会过滤掉90%的数据,因此过滤掉许多真实的变异。
因此只需要以下参数即可

QD > 2
MQ > 40.0
MQRankSum > -12.5
ReadPosRankSum > -8

也可使用R包vcfR导入VCF文件,查看各个参数的标准,从而定过滤阈值

> table(QD>2)
FALSE  TRUE 
 1140 91348 

> table(MQ > 40.0)
FALSE  TRUE 
 8924 83565 

> table(MQRankSum > -12.5)
 TRUE 
92465 

> table(ReadPosRankSum > -8)
FALSE  TRUE 
  103 92127 

> table(FS >= 60.0)
FALSE  TRUE 
86515  5974 

> table(SOR > 3)
FALSE  TRUE 
85705  6784 

参考

交流扫码


上一篇下一篇

猜你喜欢

热点阅读