基因组组装组学

SALSA Hi-C辅助组装

2022-08-18  本文已影响0人  斩毛毛

基于HI-C,将contig挂载到scaffold水平,同时可对contig进行纠错。

具体可见:Ghurye, J., Pop, M., Koren, S., Bickhart, D., & Chin, C. S. (2017). Scaffolding of long read assemblies using long range contact information. BMC genomics, 18(1), 527. Link

1. 安装

依赖

## 建p y2.7的环境
conda create -n py2.7 python=2.7
conda activate py2.7

## 安装networkx模块
pip install networkx==1.11

## 安装SALSA (安装最新即可)
git clone https://githup.com/marbl/SALSA.gti
cd SALSA
make -j8

2. 简单使用

所需要文件

bam文件也可以使用其他HI-C挂载软件所得,均可。

bam mem -SP5M -t 10 contig.fa HiC.R1.fq.gz HiC.R2.fq.gz \
  | samtools view -hF 256 - \
  | samtools sort -@ 10 -o alignment.bam -T tmp.ali
samtools index alignment.bam

运行SALSA

# bam -->bed
bamToBed -i read.fastq.gz.sorted.bam >alignment.bed

# sort
sort -k4 alignment.bed >tmp && mv tmp alignment.bed

# SALSA
run_pipeline.py -a contigu.fa -l contig.fa.fai -b \
  alignment.bed -e AAGCTT -o scaffolds

一些参数说明:

最终结果,在scaffold中,最主要的两个文件就是

上一篇下一篇

猜你喜欢

热点阅读