重测序分析

SNP过滤

2020-07-14  本文已影响0人  斩毛毛

得到vcf文件后,则需对其snp进行过滤,先对几种简单方法进行汇总

1. 第一步粗过滤

若使用GATK进行call snp,则可考虑如下过滤标准:

QD< 2.0 || FS> 60.0 || MQ< 40.0 || MQRankSum <−12.5 || ReadPosRankSum <−8.0
QUAL<30.0||QD<2.0||FS>60.0||MQ<40.0||SOR>4.0和--clusterWindowSize 5 --clusterSize 2

也可根据vcf文件,计算各个参数在群体中的分布直方图,可参考vcfR高效处理VCF文件,从而获得合适的过滤标准。

2. 根据MAF,缺失率等进行过滤

bcftools view -i 'F_MISSING < 15 & MAC > 3'  -m2 -M2 test.vcf.gz -Oz -o test.flt.vcf.gz

## 参数
-i/e: --include/--exclude <expr>         select/exclude sites for which the expression is true
-m/M: --min-alleles/--max-alleles <int>;  -m2 -M2即保留二肽SNP
-O:  --output-type <b|u|z|v>   b: compressed BCF, u: uncompressed BCF, z: compressed VCF, v: uncompressed VCF

上述过滤掉缺失率大于15%,MAC数量<3,保留二肽SNP位点。

vcftools --gzvcf raw.vcf.gz --max-missing 0.15 --mac 3 --minQ 30 --recode --recode-INFO-all --min-alleles 2 --max-alleles 2 --out raw.filt.vcf

## 参数:
--gzvcf 压缩的vcf文件;
--max-missing 过滤掉缺失率大于15%的位点;
--minQ 过滤掉低于30的质量位点;
--Mac 次要等位基因深度为3,过滤<=3的位点;
--recode 输出过滤后的VCF文件
--recode-INFO-all 包含原来文件中所有的INFO信息
--out 输出文件
--maf 0.05, 最小的maf值为0.05,<0.05 则过滤

今天先到这,上个厕所先……

上一篇 下一篇

猜你喜欢

热点阅读