生物信息学

PON构建的两种方法

2021-11-30  本文已影响0人  bioYIYI

PON构建方法一:vcftools

#构建PON
export BCFTOOLS_PLUGINS=/*/bcftools-1.8/plugins && /*/bcftools-1.8/bcftools merge -m all -f PASS,. --force-samples /*/3_single_pair_compaire/Normal.only.vcf/*.raw.vcf.gz |/*/bcftools-1.8/bcftools plugin fill-AN-AC |/*/bcftools-1.8/bcftools  filter -i 'SUM(AC)>1' > /*/3_single_pair_compaire/PON/panel_of_normal.vcf
#压缩
/*/bin/bgzip -c /*/3_single_pair_compaire/PON/panel_of_normal.vcf > /*/3_single_pair_compaire/PON/panel_of_normal.vcf.gz
#生成index
/*/bin/tabix /*/3_single_pair_compaire/PON/panel_of_normal.vcf.gz

PON构建方法二:GATK

#!/bin/bash
SAMPLE_MAP=对照样本经过预处理后所有的${SID}.vcf.gz文件的全路径列表,每个样本一行
PANEL=捕获区间bed文件#全基因组测序不需要该参数
OUTPUT=pon.${PANEL}.vcf.gz
#数据库
REF_GENOME=/全路径/ucsc.hg19.fasta
GNOMAD=/全路径/af-only-gnomad.raw.sites.b37.vcf.gz
 ###软件路径
GATK_HOME=GATK软件路径
 PICARD_HOME=Picard软件路径
 TMP_DIR=Tmp路径

#数据导入
 time java -Djava.io.tmpdir=${TMP_DIR} -XX:ParallelGCThreads=4 -jar \
    ${GATK_HOME}/gatk-package-4.1.2.0-local.jar GenomicsDBImport \
     -R ${REF_GENOME} \
     --sample-name-map ${SAMPLE_MAP} \
     --genomicsdb-workspace-path ${SAMPLE_MAP%.txt} \
     -L chr1 -L chr2 -L chr3 -L chr4 -L chr5 -L chr6 -L chr7 -L chr8 -L chr9 \
     -L chr10 -L chr11 -L chr12 -L chr13 -L chr14 -L chr15 -L chr16 -L chr17 \
     -L chr18 -L chr19 -L chr20 -L chr21 -L chr22 -L chrX -L chrY
    -L chrM \
     --batch-size 50 \
     --reader-threads 5

#PON生成
 time java -Djava.io.tmpdir=${TMP_DIR} -XX:ParallelGCThreads=4 -jar \
    ${GATK_HOME}/gatk-package-4.1.2.0-local.jar CreateSomaticPanelOfNormals \
     -R ${REF_GENOME} \
     --germline-resource ${GNOMAD} \
     -V gendb://${SAMPLE_MAP%.txt} \
     -O ${OUTPUT}

上一篇下一篇

猜你喜欢

热点阅读