PON构建的两种方法
2021-11-30 本文已影响0人
bioYIYI
PON构建方法一:vcftools
#构建PON
export BCFTOOLS_PLUGINS=/*/bcftools-1.8/plugins && /*/bcftools-1.8/bcftools merge -m all -f PASS,. --force-samples /*/3_single_pair_compaire/Normal.only.vcf/*.raw.vcf.gz |/*/bcftools-1.8/bcftools plugin fill-AN-AC |/*/bcftools-1.8/bcftools filter -i 'SUM(AC)>1' > /*/3_single_pair_compaire/PON/panel_of_normal.vcf
#压缩
/*/bin/bgzip -c /*/3_single_pair_compaire/PON/panel_of_normal.vcf > /*/3_single_pair_compaire/PON/panel_of_normal.vcf.gz
#生成index
/*/bin/tabix /*/3_single_pair_compaire/PON/panel_of_normal.vcf.gz
PON构建方法二:GATK
#!/bin/bash
SAMPLE_MAP=对照样本经过预处理后所有的${SID}.vcf.gz文件的全路径列表,每个样本一行
PANEL=捕获区间bed文件#全基因组测序不需要该参数
OUTPUT=pon.${PANEL}.vcf.gz
#数据库
REF_GENOME=/全路径/ucsc.hg19.fasta
GNOMAD=/全路径/af-only-gnomad.raw.sites.b37.vcf.gz
###软件路径
GATK_HOME=GATK软件路径
PICARD_HOME=Picard软件路径
TMP_DIR=Tmp路径
#数据导入
time java -Djava.io.tmpdir=${TMP_DIR} -XX:ParallelGCThreads=4 -jar \
${GATK_HOME}/gatk-package-4.1.2.0-local.jar GenomicsDBImport \
-R ${REF_GENOME} \
--sample-name-map ${SAMPLE_MAP} \
--genomicsdb-workspace-path ${SAMPLE_MAP%.txt} \
-L chr1 -L chr2 -L chr3 -L chr4 -L chr5 -L chr6 -L chr7 -L chr8 -L chr9 \
-L chr10 -L chr11 -L chr12 -L chr13 -L chr14 -L chr15 -L chr16 -L chr17 \
-L chr18 -L chr19 -L chr20 -L chr21 -L chr22 -L chrX -L chrY
-L chrM \
--batch-size 50 \
--reader-threads 5
#PON生成
time java -Djava.io.tmpdir=${TMP_DIR} -XX:ParallelGCThreads=4 -jar \
${GATK_HOME}/gatk-package-4.1.2.0-local.jar CreateSomaticPanelOfNormals \
-R ${REF_GENOME} \
--germline-resource ${GNOMAD} \
-V gendb://${SAMPLE_MAP%.txt} \
-O ${OUTPUT}