三代测序技术GWAS专题2020生物信息学

走一遍call snp流程

2020-02-05  本文已影响0人  M78_a

流程主要参考https://www.jianshu.com/p/859c0345624c

工具:bwa,samtools,picard,GATK 3.8

测序数据:80多份桃的重测序中的一份材料SRR830496
桃的参考基因组下载:ftp://ftp.ensemblgenomes.org/pub/release-46/plants/fasta/prunus_persica/dna/Prunus_persica.Prunus_persica_NCBIv2.dna.toplevel.fa.gz

好,开始干!

1 先进行fastqc质控

fastqc *.fastq.gz -o ./

image.png

看了一下,质量没问题,后续过滤也就不用啦

2 使用BWA将测序reads比对到参考基因组

1) 先构建索引。就一个参数,非常简单!

bwa index prunus.fa

2 )比对

bwa mem -t 24 -R '@RG\tID:SRR830496\tPL:illumina\tSM:SRR830496'  prunus.fa SRR830496_1.fastq.gz SRR830496_2.fastq.gz > SRR830496.sam  

-t 指定CPU个数
-R 设置 reads的 头文件

3 sam转bam

samtools view -Sb SRR830496.sam  -o SRR830496.sam  

4 samtools sort对bam文件进行排序

samtools sort -@ 10 -m 10G -O bam -o SRR830496.sorted.bam SRR830496.sam   

5 使用Picard标记PCR重复

java -jar /path/to/picard-tools-1.119/MarkDuplicates.jar I=SRR830496.sorted.bam O=SRR830496.sorted.markdup.bam M=SRR830496.markdup_metrics.txt

6 局部重比对

1 第一步,RealignerTargetCreator ,目的是定位出所有需要进行序列重比对的目标区域

java -jar /path/to/GenomeAnalysisTK.jar \
 -T RealignerTargetCreator \
 -R /path/to/prunus.fa  \
 -I sample_name.sorted.markdup.bam \
 -o sample_name.IndelRealigner.intervals

2 第二步,IndelRealigner,对所有在第一步中找到的目标区域运用算法进行序列重比对

java -jar /path/to/GenomeAnalysisTK.jar \
 -T IndelRealigner \
 -R /path/to/prunus.fa \
 -I sample_name.sorted.markdup.bam \
 -o sample_name.sorted.markdup.realign.bam \
 --targetIntervals sample_name.IndelRealigner.intervals

7 call snp
第一步,生成g.vcf

java -jar /path/to/GenomeAnalysisTK.jar \
 -T HaplotypeCaller \
 -R /path/to/prunus.fa \
 -I SRR830496_dedup_realign.bam \
 --emitRefConfidence GVCF \
 -o SRR830496.g.vcf

第二步,生成VCF

#调用GenotypeGVCFs完成变异calling
java -jar /path/to/GenomeAnalysisTK.jar \
 -T GenotypeGVCFs \
 -R /path/to/prunus.fa \
 --variant SRR830496.g.vcf \
 -o sample SRR830496.vcf

好了,基本完成,但是每个参数的意义,需要好好理解。

上一篇 下一篇

猜你喜欢

热点阅读