gatk试读WES与WGS分析

GATK4流程学习之背景知识与前期准备

2021-02-14  本文已影响0人  小贝学生信

GATK4流程学习之背景知识与前期准备 - 简书
GATK4流程学习之DNA-Seq variant calling(Germline:SNP+INDEL) - 简书
GATK4流程学习之RNA-Seq variant calling(SNP+INDEL) - 简书
补:Mutect2+scRNAseq+cancer cell - 简书

说明:由于一些原因,中途在一个新服务器账号创建了GATK分析环境,故后面系列分析的路径可能与在下文的路径不一致,但数据与软件都是一致的。

要点一、GATK学习

1、GATK简介

variant calling pipeline

关于SNP、INDEL等变异类型可参考之前的VCF格式详解笔记
(插一句就是我登录broad institute GATK页面总是有问题,不知道其他小伙伴也遇到类似问题。)
生信格式之fasta、fastq - 简书 https://www.jianshu.com/p/5bd5848eb596
生信格式之sam、bam - 简书 https://www.jianshu.com/p/f0f1f293f0bd
生信格式之vcf格式 - 简书 https://www.jianshu.com/p/34c1e22c92c8

2、相关概念区别

2.1 DNA-seq与RNA-seq

https://sciberg.com/resources/bioinformatics-faqs/the-differences-between-dna-and-rna-sequencing.html
(1) DNA-seq

(2)RNA-seq

RNA-seq
2.2、germline mutation与somatic mutation

https://www.zhihu.com/question/38765318
(1)germline mutation 胚系突变

(2)somatic mutation 体细胞突变

3、笔记内容

1、下载相关软件

软件安装一般到官网或者github主页,根据提示下载安装即可;有的是解压即用,有的需要make之类的操作(编译)一下。建议选择合适的文件路径,方便以后管理方便。

https://github.com/lh3/bwa

2、conda创建GATK分析环境

conda create -n GATK python=3
conda activate GATK
conda install -c bioconda -y sra-tools  seqtk
conda install -c bioconda -y fastqc trimmomatic samtools
conda install -c bioconda -y bwa gatk4
# aspera比较特殊,需从hcc channel源下载
conda install -c hcc aspera-cli
conda list
conda install -c bioconda -y star=2.7.1a
conda install -c bioconda  -y sambamba=0.6.6
conda list

但是还是建议手动安装下上述所有软件,我是分别建立了一个GATKconda环境与biosoft文件加下安装了上述软件。

3、下载参考数据库

#部分数据集特别大,耗时,建议后台运行
mkdir -p ~/path/to/GATK/bundle/hg38
cd ~/path/to/GATK/bundle/hg38

(1)下载参考基因组

nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.fasta.gz >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.fasta.fai >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Homo_sapiens_assembly38.dict >/dev/null 2>&1 &

如下,bwa与star是两个测序数据比对软件,比对时需要建立索引文件。根据GATK流程推荐,bwa适合DNA-seq数据找变异;star适合RNA-seq数据找变异

(2)bwa建立参考基因组(human)索引

#比较耗时,1-2h
mkdir bwa_index 
cd bwa_index
nohup ~/biosoft/bwa/bwa-0.7.15/bwa index -a bwtsw -p gatk_hg38 ../Homo_sapiens_assembly38.fasta >/dev/null 2>&1 &

(3)下载star的参考基因组(human)索引

mkdir  /home/shensuo/biosoft/star/STAR-2.7.7a/db/
cd /home/shensuo/biosoft/star/STAR-2.7.7a/db/
#网速好的话,一晚上可以下载好
wget -c https://data.broadinstitute.org/Trinity/CTAT_RESOURCE_LIB/GRCh38_gencode_v22_CTAT_lib_Apr032020.plug-n-play.tar.gz
# -c参数表示断点续传,下载大文件时建议使用
tar -zcvf GRCh38_gencode_v22_CTAT_lib_Apr032020.plug-n-play.tar.gz
cd GRCh38_gencode_v22_CTAT_lib_Apr032020.plug-n-play/ctat_genome_lib_build_dir/
gatk CreateSequenceDictionary -R ref_genome.fa
ls
image.png

(4)下载人类基因组参考变异注释数据

nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/dbsnp_146.hg38.vcf.gz >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/dbsnp_146.hg38.vcf.gz.tbi >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/Mills_and_1000G_gold_standard.indels.hg38.vcf.gz.tbi >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/1000G_phase1.snps.high_confsampleence.hg38.vcf.gz >/dev/null 2>&1 &
nohup wget ftp://gsapubftp-anonymous@ftp.broadinstitute.org/bundle/hg38/1000G_phase1.snps.high_confsampleence.hg38.vcf.gz.tbi >/dev/null 2>&1 &

nohup搭配&是后台不断线的下载。因为有的数据比较大,以及建立索引都比较耗时。
此外都是人类测序的相关分析数据。

上一篇下一篇

猜你喜欢

热点阅读