Juicer软件的安装详解

2019-08-13 本文已影响11人生信修炼手册

欢迎关注”生信修炼手册”!

软件安装是生物信息实战中最基础的技能之一，只有确保软件安装无误，后续使用起来才会得心应手，不会有很多的bug。juicer软件提供了Hi-C数据一键化分析的pipeline, 这样高度的封装使得用户操作起来更加简便，当然分析能力强大的同时其依赖的软件就会越多，安装过程的复杂程度也会有所提高，本文主要记录下该软件的安装过程，可以分为以下几个步骤

1. 安装依赖软件

juicer核心采用java语言进行开发，同时内置了perl, python, bash等开发的脚手架脚本。在序列比对环节使用了bwa软件，而后续操作比对产生的bam文件，会用到samtools软件。所以需要安装以下软件

java
perl
python
GNU utils
bwa
samtools

这些软件是生信领域的基本软件，其安装过程就不详细展开了。

2. 建立目录结构

juicer软件要求一个固定的目录结构，新建一个名为juicer的目录，该目录即为软件的安装目录，在该目录下必须有以下4个子目录

references目录用于存放参考基因组相关文件，work用于存放样本的序列文件和分析结果，scripts用于存放软件运行所需的脚本，restriction_sites用于存放参考基因组酶切图谱。

3. 下载juicer源代码

从github上下载juicer和jcuda的源代码，放置到scripts目录下。juicer可以在单机或者集群系统上运行，其中间脚本也对应了不同的系统，示意如下

其中的CPU目录就是单机服务器，而AWS, LSF, PBS等对应公有云和不同的集群系统。以CPU为例，下载过程如下

# 下载源代码
git clone https://github.com/aidenlab/juicer.git
# 重命名为scripts目录
ln -s juicer/CPU scripts
cd scripts/common
wget https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar
ln -s juicer_tools.1.9.9_jcuda.0.8.jar  juicer_tools.jar

4. 准备参考基因组文件

在reference目录下为参考基因组相关文件，其实就是对应的fasta序列文件和bwa 索引，示意如下

hg19.fasta
hg19.fasta.sa
hg19.fasta.ann
hg19.fasta.amb
hg19.fasta.pac
hg19.fasta.bwt

自己根据需要从UCSC,NCBI等数据库中下载基因组fasta文件，并用bwa建立索引就可以了。

在restriction_sites目录下参考基因组酶切图谱，通过jucier内置的generate_site_positions.py脚本可以产生，该脚本位于源代码中的misc目录下，支持直接输出以下4种内切酶的酶切图谱

HindIII
DpnII
MboI
Sau3AI

用法如下

generate_site_positions.py HindIII hg19  hg19.fasta

第一个参数为内切酶的名称，第二个参数为自定义的基因组版本，第三个参数为基因组fasta文件的路径，输出文件的名称为第二个参数和第一个参数用下划线链接，后缀为txt, 上述代码的输出文件为

hg19_HindIII.txt

5. 准备样本的fastq序列

执行完前4步软件就已经安装好了，软件运行时对样本文件的存放位置也有要求，必须位于work目录下，以样本名作为一个子目录，序列文件存放于fastq目录下，示意如下

/opt/juicer/work/MBR19/fastq
/opt/juicer/work/MBR19/fastq/chr19_R1.fastq.gz
/opt/juicer/work/MBR19/fastq/chr19_R2.fastq.gz

关于安装成功后的目录结构，可以参考以下链接

https://bcm.app.box.com/v/juicerawsmirror/folder/11284128669

juicer的安装过程算不上复杂，就是注意事项有很多，操作起来较为繁琐，只需要按照以上步骤耐心操作，还是可以快速安装成功的。

·end·

—如果喜欢，快分享给你的朋友们吧—

扫描关注微信号，更多精彩内容等着你！