基因组

【HiC挂载】3D-DNA挂载

2021-11-29  本文已影响0人  jjjscuedu

目前,用于Hi-C辅助基因组组装的软件有LACHESIS、SALSA2、3D-DNA、ALLHiC等,包括这2年发的hic_hiker等, 这些软件在基因组组装方面各有优劣。SALSA2和3D-DNA虽不需预先提供染色体数目即可进行互作分析,但在可操作性和实用性上都有一定的局限性。LACHESIS作为分析Hi-C数据的经典工具,文章认可度较高,但其在多倍体基因组组装方面表现欠佳。前面也试过AllHiC来挂载多倍体,但是有些简单的物种挂载过程中好像有点不如意的区域,所以再尝试一下去其它工具的结果。

使用3D-DNA做基因组组装的整体流程如下图,分别为组装,Juicer分析Hi-C数据,3D-DNA进行scaffolding,使用JBAT对组装结果进行手工纠正,最终得到准染色体水平的基因组。

=====安装=====

在安装之前,确保服务器上有了下面这些依赖软件工具

 LastZ(仅在杂合基因组的二倍体模式下使用)

 Java >= 1.7

 GNU Awk >= 4.02

 GNU coreutils sort > 8.11

 Python >= 2.7

 scipy, numpy, matplotlib

 GNU Parallel >=20150322 (不必要,但是强力推荐)

 bwa

 我们需要安装两个软件,一个是3D-DNA,另一个是juicer。

CPU版本的juicer:

git clone https://github.com/theaidenlab/juicer.git

cd juicer

ln -s CPU scripts

cd scripts/common

wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar

ln -s juicer_tools.1.9.9_jcuda.0.8.jar  juicer_tools.jar

3D-DNA安装:

git clone https://github.com/theaidenlab/3d-dna.git

========分析测试=========

两个输入数据:

reference:存放一个genome.fa, 为组装的contigs。

fastq: 存放HiC二代双端测序结果,read_R1.fastq.gz, read_R2.fastq.gz

    有了这两个数据就可以开始了。*_R*.fastq*

第一步:为基因组建立索引

bwa index genome.fa

第二步: 根据基因组构建创建可能的酶切位点文件

python juicer-master/misc/generate_site_positions.py DpnII genome genome.fa 

第三步: 获取每条contig的长度

awk 'BEGIN{OFS="\t"}{print $1, $NF}' genome_DpnII.txt > genome.chrom.sizes

第四步:运行juicer

/gpfs03/home/jingjing/software/juicer-master/scripts/juicer.sh -t 30 -g RT -z reference/genome.fa -y restriction_sites/genome_DpnII.txt -p restriction_sites/genome.chrom.sizes -D /gpfs03/home/jingjing/software/juicer-master/CPU/ -s DpnII

输出的结果文件都在aligned目录下,其中"merged_nodups.txt"就是下一步3D-DNA的输入文件之一。

第五步:运行3d-dna

注:3d-dna的运行也没有多少参数可以调整,如果对组装基因组质量的信心高,就用-r 0, 否则用默认的-r 2就行了。

/gpfs03/home/jingjing/software/3d-dna-master/./run-asm-pipeline.sh reference/assembly_scaffolds_tjn.fasta aligned/merged_nodups.txt

第六步:使用juicerbox进行手工纠错

然后在Juicer-Tools中对结果进行可视化,对可能的错误进行纠正。

https://github.com/aidenlab/Juicebox/releases

最常见的几种组装错误:

 

   misjoin: 切割

   translocations: 移动

   inversions: 翻转

   chromosome boundaries: 确定染色体的边界

 

这些错误的判断依赖于经验,所以只能靠自己多试试了。

最后输出genome.review.assembly用于下一步的分析。

第七步:再次运行3d-DNA

run-asm-pipeline-post-review.sh -r genome.review.assembly genome.fa aligned/merged_nodups.txt

本文使用 文章同步助手 同步

上一篇 下一篇

猜你喜欢

热点阅读