生信 | 基因组组装实战（五）：三代数据纠错gcpp、racon

2021-06-17 本文已影响0人生信卷王

写在前面

以下内容均来自我在菲沙基因（Frasergen）暑期生信培训班上记录的课堂笔记

1.三代数据纠错

$\color{red}{软件一}$ ：gcpp，封装到了pb-assembly中，使用conda安装

conda install -c bioconda pb-assembly -y

使用方法，一轮纠错就差不多了

pbmm2 index contig.fasta ref.mmi
pbmm2 align ref.mmi *subreadset.xml contigs.fasta.bam
samtools sort -@ 32 -o contigs.fasta.sorted.bam contigs.fasta.bam
gcpp -j60 --algorithm=arrow contigs.fasta.sorted.bam -r contig.fasta -o myConsensus.fasta

$\color{red}{软件二}$ ：racon，使用conda安装

#比对要用到minimap2，因此顺手安装一下
conda install -c bioconda minimap2 -y
conda install -c bioconda racon -y

软件用法，进行多轮纠错更加准确

input=/test/4-fsa/contigs.fasta
data=/00.data/all_subreads.bam.fasta
#第一轮纠错
minimap2 -t 10 $input $data > round1.paf
racon -t 10 $data round1.paf $input > round1.fasta
#第二轮纠错
minimap2 -t 10 round1.fasta $data > round2.paf
racon -t 10 $data round2.paf round1.fasta > round2.fasta
#第三轮纠错
minimap2 -t 10 round2.fasta $data > round3.paf
racon -t 10 $data round3.paf round2.fasta > round3.fasta

2.二代纠错

软件：pilon
使用conda安装

#比对用到了bwa与samtools ，也顺手安装一下
conda install -c bioconda bwa -y
conda install -c bioconda pilon -y
conda install -c bioconda samtools -y

比对

bwa index -p index/draft draft.fa
bwa mem -t 16 index/draft raed1_fq.gz read2_fq.gz |samtools sort -@ 10 -O bam -o align.bam
samtools index -@ 10 align.bam

draft.fa：三代数据组装好的基因组文件
read1_fq.gz read2_fq.gz：illumina的双端测序数据经过质控之后的数据

纠错

pilon \
--genome draft.fa \
--frags align_filter.bam \
--fix snp,indels \
--output pilon_polished \
--vcf

--frags 表示输入的是1kb以内的paired-end文库，
--jumps 表示大于1k以上的mate pair文库,
--bam 则是让软件自己猜测
-vcf 输出一个vcf文件，包含每个碱基的信息
--fix Pilon将会处理的内容，基本上选snps和indels就够了
--variant 启发式的变异检测，等价于--vcf --fix all,breaks, 如果是polish不要使用该选项
--minmq 用于Pilon堆叠的read最低比对质量，默认是0。

3.Hi-C挂载

Hi-C技术简介
Hi-C技术是3C技术（Chromosome Conformation Capture染色体构象捕获）的一种衍生技术。
Hi-C是结合3C技术和高通量测序技术捕获基因组的三维结构的技术。
Hi-C技术
Hi-C 辅助组装简介
使用Hi-C辅助组装，可以将contigs组装到假染色体水平
Hi-C辅助组装
Hi-C辅助组装原理
首先对下机数据进行质控去接头获得高质量的clean reads，然后将数据比对到已经组装的基因组序列上并去除PCR重复。利用去噪矫正之后的交互数据，构建染色质交互矩阵，针对其染色质三维空间结构特征，选取合适的聚类模型将未定位scaffolds锚定到染色体上，并采用相应的排序算法确定挂载scaffolds的正确顺序和方向，组装出染色体水平的全基因组序列。

Hi-C辅助组装原理

关于Hi-C的介绍单独记录一篇

生信 | 基因组组装实战（五）：三代数据纠错gcpp、racon

写在前面

1.三代数据纠错

2.二代纠错

3.Hi-C挂载

关于Hi-C的介绍单独记录一篇

猜你喜欢

热点阅读