高通量测序数据处理GATK

GATK Best Practices for RNA-Seq

2019-08-17  本文已影响0人  Zhai1994

前言

GATK是由Broad institute开发的用于变异检测(例如: SNP, Indel等)高通量测序数据. 目前GATK已经被广泛应用于人类以及哺乳动物从WGS (Whole Genome Sequencing) 数据中检测遗传变异。本文讲展示如何使用GATK官方提供的Best Practice对群体RNA-Seq数据进行变异检测。

所需要的工具

详细步骤及解释

1、为参考基因组创建index
2、STAR 2-pass alignment
3、Add read groups

注意!!!:上述命令中RGSM=sampleName参数,在对群体数据进行变异检测的时候,一定要保证每个样本名字不一样,否则后续生成的GVCF将无法合并,在实际操作中可以将RGSM设置成SRR accession或者直接设置为样本名称.

4、Remove duplicates
5、SplitNCigarReads
6、Indel realignment (optional)
7、Run HaplotypeCaller

注意!!!: 上述命令中ERC参数用来指定输出文件格式为GVCF,所谓GVCF就是VCF的变种,即输出每一个位置的信息(不局限于变异)。

8、Combine GVCF

注意!!!: 以上命令有几个样本就有几个variant参数, 同时一定要保证每个GVCF文件最后一列的行名不一样,否则将无法合并。

9、将GVCF转换为VCF
10、过滤

VCF文件的压缩

#压缩
bgzip test.gVCF
#解压
tabix -p vcf test.gVCF.gz
上一篇 下一篇

猜你喜欢

热点阅读