处理SLAF测序数据注意事项
2020-05-28 本文已影响0人
斩毛毛
最近需要根据一批SLAF数据用于构建遗传图,发现在处理数据的时候有很多坑,现简要概述
数据比对后不要去除PCR重复
当我选用GATK进行call snp时,发现结果中很多位点并没有reads覆盖,或者覆盖度非常低,最终排查后,发现我对bam文件进行了去重复
但是我已经使用标记了重复,也不慌,不需要重新进行比对,只需要在运行时添加 参数即可;如下
soft/gatk-4.1.5.0/gatk --java-options -Xmx4G HaplotypeCaller -DF NotDuplicateReadFilter \
-I test.sorted.markdup.bam \
-O test.g.vcf -R ref.fa \
--emit-ref-confidence GVCF
其中 为的缩写
对SNP过滤时又些参数不能用
一般使用GATK call snp的时候,可以选用参数有如下
QD > 2.0
FS > 60.0
MQ > 40.0
MQRankSum > -12.5
ReadPosRankSum > -8.0
SOR > 3.0
但是SLAF测序并不是对整个基因组进行测序,而是根据酶切位点进行,所以,涉及到strand bias有关的标准在过滤时,也就是FS > 60.0 SOR > 3.0时会过滤掉90%的数据,因此过滤掉许多真实的变异。
因此只需要以下参数即可
QD > 2
MQ > 40.0
MQRankSum > -12.5
ReadPosRankSum > -8
也可使用R包vcfR导入VCF文件,查看各个参数的标准,从而定过滤阈值
> table(QD>2)
FALSE TRUE
1140 91348
> table(MQ > 40.0)
FALSE TRUE
8924 83565
> table(MQRankSum > -12.5)
TRUE
92465
> table(ReadPosRankSum > -8)
FALSE TRUE
103 92127
> table(FS >= 60.0)
FALSE TRUE
86515 5974
> table(SOR > 3)
FALSE TRUE
85705 6784
参考
交流扫码