走一遍call snp流程
2020-02-05 本文已影响0人
M78_a
流程主要参考https://www.jianshu.com/p/859c0345624c
工具:bwa,samtools,picard,GATK 3.8
测序数据:80多份桃的重测序中的一份材料SRR830496
桃的参考基因组下载:ftp://ftp.ensemblgenomes.org/pub/release-46/plants/fasta/prunus_persica/dna/Prunus_persica.Prunus_persica_NCBIv2.dna.toplevel.fa.gz
好,开始干!
1 先进行fastqc质控
fastqc *.fastq.gz -o ./
看了一下,质量没问题,后续过滤也就不用啦
2 使用BWA将测序reads比对到参考基因组
1) 先构建索引。就一个参数,非常简单!
bwa index prunus.fa
2 )比对
bwa mem -t 24 -R '@RG\tID:SRR830496\tPL:illumina\tSM:SRR830496' prunus.fa SRR830496_1.fastq.gz SRR830496_2.fastq.gz > SRR830496.sam
-t 指定CPU个数
-R 设置 reads的 头文件
3 sam转bam
samtools view -Sb SRR830496.sam -o SRR830496.sam
4 samtools sort对bam文件进行排序
samtools sort -@ 10 -m 10G -O bam -o SRR830496.sorted.bam SRR830496.sam
5 使用Picard标记PCR重复
java -jar /path/to/picard-tools-1.119/MarkDuplicates.jar I=SRR830496.sorted.bam O=SRR830496.sorted.markdup.bam M=SRR830496.markdup_metrics.txt
6 局部重比对
1 第一步,RealignerTargetCreator ,目的是定位出所有需要进行序列重比对的目标区域
java -jar /path/to/GenomeAnalysisTK.jar \
-T RealignerTargetCreator \
-R /path/to/prunus.fa \
-I sample_name.sorted.markdup.bam \
-o sample_name.IndelRealigner.intervals
2 第二步,IndelRealigner,对所有在第一步中找到的目标区域运用算法进行序列重比对
java -jar /path/to/GenomeAnalysisTK.jar \
-T IndelRealigner \
-R /path/to/prunus.fa \
-I sample_name.sorted.markdup.bam \
-o sample_name.sorted.markdup.realign.bam \
--targetIntervals sample_name.IndelRealigner.intervals
7 call snp
第一步,生成g.vcf
java -jar /path/to/GenomeAnalysisTK.jar \
-T HaplotypeCaller \
-R /path/to/prunus.fa \
-I SRR830496_dedup_realign.bam \
--emitRefConfidence GVCF \
-o SRR830496.g.vcf
第二步,生成VCF
#调用GenotypeGVCFs完成变异calling
java -jar /path/to/GenomeAnalysisTK.jar \
-T GenotypeGVCFs \
-R /path/to/prunus.fa \
--variant SRR830496.g.vcf \
-o sample SRR830496.vcf
好了,基本完成,但是每个参数的意义,需要好好理解。