SNP过滤
2020-07-14 本文已影响0人
斩毛毛
得到vcf文件后,则需对其snp进行过滤,先对几种简单方法进行汇总
1. 第一步粗过滤
若使用GATK进行call snp,则可考虑如下过滤标准:
QD< 2.0 || FS> 60.0 || MQ< 40.0 || MQRankSum <−12.5 || ReadPosRankSum <−8.0
QUAL<30.0||QD<2.0||FS>60.0||MQ<40.0||SOR>4.0和--clusterWindowSize 5 --clusterSize 2
也可根据vcf文件,计算各个参数在群体中的分布直方图,可参考vcfR高效处理VCF文件,从而获得合适的过滤标准。
2. 根据MAF,缺失率等进行过滤
- 根据bcftools 进行过滤
bcftools view -i 'F_MISSING < 15 & MAC > 3' -m2 -M2 test.vcf.gz -Oz -o test.flt.vcf.gz
## 参数
-i/e: --include/--exclude <expr> select/exclude sites for which the expression is true
-m/M: --min-alleles/--max-alleles <int>; -m2 -M2即保留二肽SNP
-O: --output-type <b|u|z|v> b: compressed BCF, u: uncompressed BCF, z: compressed VCF, v: uncompressed VCF
上述过滤掉缺失率大于15%,MAC数量<3,保留二肽SNP位点。
- 根据vcftools进行过滤
vcftools --gzvcf raw.vcf.gz --max-missing 0.15 --mac 3 --minQ 30 --recode --recode-INFO-all --min-alleles 2 --max-alleles 2 --out raw.filt.vcf
## 参数:
--gzvcf 压缩的vcf文件;
--max-missing 过滤掉缺失率大于15%的位点;
--minQ 过滤掉低于30的质量位点;
--Mac 次要等位基因深度为3,过滤<=3的位点;
--recode 输出过滤后的VCF文件
--recode-INFO-all 包含原来文件中所有的INFO信息
--out 输出文件
--maf 0.05, 最小的maf值为0.05,<0.05 则过滤
今天先到这,上个厕所先……