基因组组装基因组组装

生信 | 基因组组装实战(五):三代数据纠错gcpp、racon

2021-06-17  本文已影响0人  生信卷王

写在前面

1.三代数据纠错

conda install -c bioconda pb-assembly -y 
pbmm2 index contig.fasta ref.mmi
pbmm2 align ref.mmi *subreadset.xml contigs.fasta.bam
samtools sort -@ 32 -o contigs.fasta.sorted.bam contigs.fasta.bam
gcpp -j60 --algorithm=arrow contigs.fasta.sorted.bam -r contig.fasta -o myConsensus.fasta
#比对要用到minimap2,因此顺手安装一下
conda install -c bioconda minimap2 -y
conda install -c bioconda racon -y
input=/test/4-fsa/contigs.fasta
data=/00.data/all_subreads.bam.fasta
#第一轮纠错
minimap2 -t 10 $input $data > round1.paf
racon -t 10 $data round1.paf $input > round1.fasta
#第二轮纠错
minimap2 -t 10 round1.fasta $data > round2.paf
racon -t 10 $data round2.paf round1.fasta > round2.fasta
#第三轮纠错
minimap2 -t 10 round2.fasta $data > round3.paf
racon -t 10 $data round3.paf round2.fasta > round3.fasta

2.二代纠错

#比对用到了bwa与samtools ,也顺手安装一下
conda install -c bioconda bwa -y
conda install -c bioconda pilon -y
conda install -c bioconda samtools -y
bwa index -p index/draft draft.fa
bwa mem -t 16 index/draft raed1_fq.gz read2_fq.gz |samtools sort -@ 10 -O bam -o align.bam
samtools index -@ 10 align.bam

draft.fa:三代数据组装好的基因组文件
read1_fq.gz read2_fq.gz:illumina的双端测序数据经过质控之后的数据

pilon \
--genome draft.fa \
--frags align_filter.bam \
--fix snp,indels \
--output pilon_polished \
--vcf

--frags 表示输入的是1kb以内的paired-end文库,
--jumps 表示 大于1k以上的mate pair文库,
--bam 则是让软件自己猜测
-vcf 输出一个vcf文件,包含每个碱基的信息
--fix Pilon将会处理的内容,基本上选snps和indels就够了
--variant 启发式的变异检测,等价于--vcf --fix all,breaks, 如果是polish不要使用该选项
--minmq 用于Pilon堆叠的read最低比对质量,默认是0。

3.Hi-C挂载

Hi-C辅助组装原理
上一篇 下一篇

猜你喜欢

热点阅读