【HiC挂载】3D-DNA挂载

2021-11-29 本文已影响0人 jjjscuedu

目前，用于Hi-C辅助基因组组装的软件有LACHESIS、SALSA2、3D-DNA、ALLHiC等，包括这2年发的hic_hiker等，这些软件在基因组组装方面各有优劣。SALSA2和3D-DNA虽不需预先提供染色体数目即可进行互作分析，但在可操作性和实用性上都有一定的局限性。LACHESIS作为分析Hi-C数据的经典工具，文章认可度较高，但其在多倍体基因组组装方面表现欠佳。前面也试过AllHiC来挂载多倍体，但是有些简单的物种挂载过程中好像有点不如意的区域，所以再尝试一下去其它工具的结果。

使用3D-DNA做基因组组装的整体流程如下图，分别为组装，Juicer分析Hi-C数据，3D-DNA进行scaffolding，使用JBAT对组装结果进行手工纠正，最终得到准染色体水平的基因组。

=====安装=====

在安装之前，确保服务器上有了下面这些依赖软件工具

LastZ（仅在杂合基因组的二倍体模式下使用）

Java >= 1.7

GNU Awk >= 4.02

GNU coreutils sort > 8.11

Python >= 2.7

scipy, numpy, matplotlib

GNU Parallel >=20150322 (不必要，但是强力推荐)

bwa

我们需要安装两个软件，一个是3D-DNA，另一个是juicer。

CPU版本的juicer：

git clone https://github.com/theaidenlab/juicer.git

cd juicer

ln -s CPU scripts

cd scripts/common

wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar

ln -s juicer_tools.1.9.9_jcuda.0.8.jar juicer_tools.jar

3D-DNA安装：

git clone https://github.com/theaidenlab/3d-dna.git

========分析测试=========

两个输入数据：

reference:存放一个genome.fa, 为组装的contigs。

fastq: 存放HiC二代双端测序结果，read_R1.fastq.gz, read_R2.fastq.gz

有了这两个数据就可以开始了。*_R*.fastq*

第一步:为基因组建立索引

bwa index genome.fa

第二步: 根据基因组构建创建可能的酶切位点文件

python juicer-master/misc/generate_site_positions.py DpnII genome genome.fa

第三步: 获取每条contig的长度

awk 'BEGIN{OFS="\t"}{print $1, $NF}' genome_DpnII.txt > genome.chrom.sizes

第四步：运行juicer

/gpfs03/home/jingjing/software/juicer-master/scripts/juicer.sh -t 30 -g RT -z reference/genome.fa -y restriction_sites/genome_DpnII.txt -p restriction_sites/genome.chrom.sizes -D /gpfs03/home/jingjing/software/juicer-master/CPU/ -s DpnII

输出的结果文件都在aligned目录下，其中"merged_nodups.txt"就是下一步3D-DNA的输入文件之一。

第五步：运行3d-dna

注：3d-dna的运行也没有多少参数可以调整，如果对组装基因组质量的信心高，就用-r 0, 否则用默认的-r 2就行了。

/gpfs03/home/jingjing/software/3d-dna-master/./run-asm-pipeline.sh reference/assembly_scaffolds_tjn.fasta aligned/merged_nodups.txt

第六步：使用juicerbox进行手工纠错

然后在Juicer-Tools中对结果进行可视化，对可能的错误进行纠正。

https://github.com/aidenlab/Juicebox/releases

最常见的几种组装错误:

misjoin: 切割

translocations: 移动

inversions: 翻转

chromosome boundaries: 确定染色体的边界

这些错误的判断依赖于经验，所以只能靠自己多试试了。

最后输出genome.review.assembly用于下一步的分析。

第七步：再次运行3d-DNA

run-asm-pipeline-post-review.sh -r genome.review.assembly genome.fa aligned/merged_nodups.txt

本文使用文章同步助手同步

【HiC挂载】3D-DNA挂载

第四步：运行juicer

猜你喜欢

热点阅读