HiC-Pro:灵活的Hi-C数据处理软件
欢迎关注”生信修炼手册”!
HiC-Pro是一款高效的Hi-C数据分析软件,提供了从原始数据到归一化之后的HI-C图谱构建的完整功能,运行效率高,用法简便。该软件对应的文章链接如下
https://genomebiology.biomedcentral.com/track/pdf/10.1186/s13059-015-0831-x
完整的pipeline如下图所示
红色方框标记的是数据预处理部分,功能和HICUP软件类似,包括序列比对和筛选valid pairs;预处理之后就是binning, 构建不同分辨率下的原始的交互矩阵contact map, 最后对原始的contact map进行归一化处理,得到校正后的contact map。
HiC-Pro的一个强大功能在于可以构建单倍型级别的Hi-C图谱,单倍型级别的Hi-C图谱有助于更加精细化理解基因组三维结构,进一步对基因调控等功能进行深入细致的研究。
整个处理过程分为以下几个步骤
1. 序列比对
HiC-Pro采用了两步比对的策略,如下所示
考虑到连接点在插入片段上的位置和测序读长的关系,第一步先将R1和R2端分别与基因组比对,对于没有比对上的reads, 可能是存在连接点的嵌合体reads, 也可能本身就是unmapping reads, 通过从3’端切除部分序列的方式,使得嵌合体序列也能够比对上基因组, 两步策略保证了数据的利用率。
2. 筛选valid pairs
比对时将R1和R2端分开单独考虑,但是二者其实来自于同一个fragment, 这一步的筛选其实是能够代表染色质交互的有效fragment,这样的fragment肯定是一个嵌合体序列,有来自交互作用的两个染色质区域的序列构成, 如下图所示
只有来自嵌合体fragment的reads才被定义为valid pairs, 然后进行后续分析。
3. 构建原始Hi-C图谱
根据指定的分辨率,统计两个bin
区域内valid pairs的数目, 去除PCR重复之后,构建原始的交互矩阵。
4. 归一化
不同区域GC含量,mapping概率等系统误差都使得原始的交互矩阵不能够有效代表染色质交互信息, 所以需要进行归一化。采用了一种迭代校正的归一化算法对原始的交互矩阵进行归一化,矫正系统误差。
HIC-Pro还提供了一系列的质控标准,如下图所示
一个高质量的文库绝大部分肯定都能够比对上基因组,如图A所示, R1和R2的比对率都很高。而比对上的reads中应该主要是unique mapping, 如图A第二张图所示,multiple hits和low quality也是文库质量的指标之一。
valid pairs的比例则是文库质量的最直接体现,valid pairs的比例至少要在50%以上。
将染色质交互作用进一步区分为染色质之间的inter-interaction. 对应B图中的trans contact, 和染色质内部的intra-interaction, 对应cis contact。对于cis contact, 根据距离阈值分成short和long两种。
一个高质量的文库首先intra-interaction的比例在40%以上,其次由于线性距离近的染色质更容易随机结合,引入系统误差,所以高质量文库的cis long contacts的比例在40%以上。
HiC-Pro所有的参数都放置在一个配置文件中,既可以一键化运行整个pipeline, 也可以分布运行,单独执行其中的某几步,灵活性很强,后续会介绍其详细用法。
·end·
—如果喜欢,快分享给你的朋友们吧—
扫描关注微信号,更多精彩内容等着你!