2018-07-13
HiC数据标准化工具pipeline || HiC-Pro极简指南
原创: 耄耋 生信Rookie 4月24日
一、HiC-Pro 简介
HiC-Pro,可能是最好用的HiC数据标准化处理工具,源于“HiC data processing”。流程主要分为6个步骤,比对、过滤HiC比对结果、检测有效HiC序列、结果合并、构建HiC关联图谱以及关联图谱标准化。
HiC-Pro可以输出各个尺度的HiC标准化互作图谱,从每个窗口5Kb到1Mb,当然窗口越大,所生成的互作关系越少,计算时间就越少,反之则越多。此外HiC-Pro还可以进行HICUP、HiCdat等众多HiC数据处理软件所不能进行的等位基因特异性HiC分析。
HiC-Pro于2015年发表于Genome biology(https://genomebiology.biomedcentral.com/articles/10.1186/s13059-015-0831-x),有兴趣的可以去查看原文,更加深入了解。
二、下载安装
(1)下载地址:
https://github.com/nservant/HiC-Pro (版本2.7.8)
(2)安装:
依赖软件还是比较多,分别如下。
bowtie2、g++、sort、samtools(>1.1)
Python2 (注释是2,3不支持version >=2.7)、4个Python模块(pysam (>=0.8.3), bx-python(>=0.5.0), numpy(>=1.8.2), scipy(>=0.15.1) )
R、以及两个R包(RColorBrewer和ggplot2 (>2.2.1) )
(3)解压安装:
unzip HiC-Pro-master.zip && make configure && make install (安装成功如下所示)
# 表示安装成功
[root@201 HiC-Pro-master]# ./bin/HiC-Pro
usage : HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [-p] [-h] [-v]
Useoption-h|--help for more information
(代码可左右滑动,下同)
三、使用
#查看帮助
[root@201 HiC-Pro-master]# ./bin/HiC-Pro -h #需要输入三个参数,
usage : HiC-Pro -i INPUT -o OUTPUT -c CONFIG [-s ANALYSIS_STEP] [-p] [-h] [-v]
Useoption-h|--help for more information
HiC-Pro2.10.0
---------------
OPTIONS
-i|--input INPUT : input data folder; Must contains a folder per sample with input files #输入序列文件夹
-o|--output OUTPUT : output folder #输出文件夹
-c|--conf CONFIG : configuration file for Hi-C processing #配置文件
[-p|--parallel] : if specified run HiC-Pro on a cluster
[-s|--step ANALYSIS_STEP] : run only a subset of the HiC-Pro workflow; if not specified the complete workflow is run
mapping: performreadsalignment - requirefastfiles
proc_hic: perform Hi-C filtering - require BAM files
quality_checks: run Hi-C quality control plots
merge_persample:mergemultiple inputsandremove duplicatesifspecified - require .validPairs files
build_contact_maps:Buildrawinter/intrachromosomal contact maps - require _allValidPairs files
ice_norm : run ICE normalizationoncontact maps - require .matrix files
[-h|--help]: help
[-v|--version]: version
# -i 为输入序列文件夹,值得注意的是这个文件夹下的每对双端文件都需要重新建立一个文件夹,比如输入序列文件夹为HiC_RawData,有两对双端数据,里面的内容即可以为S1/S1_1.fastq,S1/S1_2.fastq和S2/S2_1.fastq,S2/S2_2.fastq
#-o 输出文件夹,随个人喜好即可
#-c 配置文件,必须要填入修改的参数有一些,其他如果没有特殊需求按照默认即可
BOWTIE2_IDX_PATH =# bowtie2建立的索引所在的路径,记住绝对路径
REFERENCE_GENOME =# bowtie2建立的索引
GENOME_SIZE =# 参考基因组中每条序列的大小,格式为chr01 10000000
GENOME_FRAGMENT =# HiC消化片段位点文件,这个文件在每个HIC流程中都需要生成,一般HiC建库的酶为hindiii(A^AGCTT )或者dnpiii
#生成命令为 /PATH/HiC-Pro-master/bin/utils/digest_genome.py -r hindiii -o Refgenome.fasta #一般第一个
#或 /PATH/HiC-Pro-master/bin/utils/digest_genome.py -r dnpiii -o Refgenome.fasta
#或 /PATH/HiC-Pro-master/bin/utils/digest_genome.py -r hindiii dnpiii -o Refgenome.fasta #两者都有
BIN_SIZE =# 窗口大小,可以看分析需求而定,5000、10000、50000、100000、1000000都是可以,这个值越小计算量越大
N_CPU=# 运行CPU数量,看服务器情况而定,一般20速度即很快了
# -s 分步运行,因为5步中还是mapping花的时间最多,所以要调整参数,分步运行还是会快很多,比如调整BIN_SIZE等等,这里要注意的是输入文件夹还是要和我之前说的-i那个格式是一样的。
四、结果查看
-o 输出文件夹中,共有bowtie_results和hic_results两个结果文件夹。
其中bowtie_results文件夹下共有三个文件夹:bwt2、bwt2_global和bwt2_local,分别是序列比对结果、染色体间关联比对结果和染色体内部关联比对结果。其中bwt2文件夹下有一些数据统计结果的输出文件,如mpairstat文件(如下)。
## merge_statfiles.py
## dir= bowtie_results/bwt2/L2/
## pattern= *.pairstat
## Merging 1 files
Total_pairs_processed 15749992 100.0
Unmapped_pairs 1022010 6.489
Low_qual_pairs 0 0.0
Unique_paired_alignments 5258248 33.386 # 有效数据为Unique 这一栏
Multiple_pairs_alignments 5353356 33.99
Pairs_with_singleton 4116378 26.136
Low_qual_singleton 0 0.0
Unique_singleton_alignments 0 0.0
Multiple_singleton_alignments 0 0.0
Reported_pairs 5258248 33.386 # 最终有效数据为33.386%
hic_results文件夹下共有data、matrix以及pic三个文件夹。data文件夹下是比对上的有效序列对,文件末尾为_allValidPairs;pic文件夹下是各类结果数据统计;matrix文件夹下分为 iced 和 raw 两个文件夹,分别标准化后的关联矩阵和初始的关联矩阵。
参考资料:
https://genomebiology.biomedcentral.com/articles/10.1186/s13059-015-0831-x
https://github.com/nservant/HiC-Pro
https://nservant.github.io/HiC-Pro/