一对多的染色质互作

2020-05-23 本文已影响0人 Shaoqian_Ma

这里主要介绍HiChIP和4C

HiChiP: efficient and sensitive analysis of protein-directed genome architecture

参考：https://www.nature.com/articles/nmeth.3999

Schematic of HiChIP method

HiChIP通过裂解细胞前就在细胞核中交联，从而降低假阳性，最大化提高DNA contact的捕获效率。然后收集细胞核，在原位产生Hi-C交联，利用生物素标记DNA末端。接着进行细胞核的裂解，超声打断DNA，后续用特异性的抗体进行ChIP实验。得到DNA蛋白复合物后，进行DNA洗脱和反向交联。随后，进行生物素捕获Hi-C交联和文库制备，上机测序。

作者所认为的技术优势包括：

构象信息读取的产量提高了10倍以上
相对于ChIA-PET，样本要求降低了100倍以上（前者要求几百万个细胞）
所需细胞数量低于Hi-C

schematic.jpg

与以前的研究相类似地，CTCF motif基本是都是convergent orientation, 且HiChIP进一步降低了细胞数量：

motif_cellnumber.jpg

作者借鉴了4C的viewpoint分析方法(virtual 4C)，分析了感兴趣位点附近的信号分布并与Hi-C做了比较：

compareHiC.jpg

To precisely visualize enrichment of HiChIP relative to in situ Hi-C we employed virtual 4C, where a specific genomic region is selected as an anchor ‘view point’, and all PETs connecting to that anchor are visualized as a line plot.

Viewpoint在这里是指XistRNA的启动子

Overview of 4C

接下来以4C为例进行讨论，参考：Chapter Four - 4C Technology: Protocols and Data Analysis

因为HiChIP和4C类似的一点是都是一个感兴趣位点对多位点的互作，所以这里可以了解一些4C的背景；另外，HiChIP中也提到了viewpoint coverage的分析方法，这个分析方法就是借鉴了4C

4C 不仅可以检测大的染色质范围的相互作用，也可以检测小的局部的调控元件互作。对于如急性淋巴细胞白血病的研究，可以检测染色质重排事件的发生。

因为4C是检测所有与感兴趣的位点相互作用的基因组区域，我们把感兴趣的位点称作view-points或者bait，被交联的区域成为captures

4C的protocol涉及两次酶切RE和两次连接ligation:

4C_technology.jpg

第一次酶切是为了方便顺利连接成环状DNA，第二次酶切是为了方便特殊设计引物的PCR

这里涉及4-cut和6-cut酶的选择问题，一般选择4-cut且切割位点GC均衡的酶，切割没有GC偏倚且频率相对高一些。另外，RE不能对甲基化修饰敏感。

Background: The first digestion is performed on cross-linked material: this digest defines the sizes and position of fragments between which contacts (cross-links) are analyzed. Most REs are not able to properly digest crosslinked material. We use the six base pair-cutting enzymes HindIII, EcoRI, BglII or the more frequently cutting four base pair-recognizing enzymes DpnII, NlaIII, and Csp6I (none blocked by CpG methylation), as these in our hands digest cross-linked chromatin well.

最好每个阶段对DNA产物跑电泳检测一下：PCR后的大概在500bp左右

Intermediate steps of the 4C procedure.jpg

Data analysis

比对

4C需要把reads按照对应的primer分别合并成bins，也就是每个bins对应一个viewpoint

质控

分为三个指标：

每个实验的reads counts数
可比对reads中cis-mapped reads占比：cis-overall ratio
在viewpoint附近窗口内的reads覆盖情况

对于单个4C实验，一般需要1M以上的reads

对于RE是six cutters的，每一侧的窗口大小为1M；对于RE是four cutters的，每一侧的窗口大小为0.1M

4C_QC.jpg

cis/overall ratio of >40% 为可接受范围，trans的reads一般会被认为是random ligation

上图的质控反映reads在viewpoint附近的分布情况，理论上高质量的数据都集中在B区域。

PCR产物中两种明显的副产物就是noncut和self-ligated reads。前者是1st RE消化效率太低造成，后者是同一个viewpoint的片段自己连起来，而没有和capture片段连接，这种reads也是要抛弃的

如果需要local interaction，建议用4 cutters

In cis data

作者应用running-window approach，平滑序列数据：图中110附近信号值最强，就是viewpoint的位置

4C_results.jpg

和RNA-seq不同，4C数据中reads实际的counts数不是我们感兴趣的，我们感兴趣的是实际有哪些位点的相互作用能被捕获到，所以在作者讨论的分析算法中，第一步需要binarize数据，变成0和1编码，这样一方面避免了PCR扩增偏倚带来的counts偏倚，一方面，信号值与reads到viewpoints的距离成反比（没有意义，我们只要知道capture是什么），所以二进制编码也不用考虑这个

最合适的Windows大小为100，对每个window的capture数目与background比较做统计学检验。

Trans analysis

trans数据实际上很多是random ligation的结果

基本是和cis分析相似，不过因为viewpoint在它的染色体上没有capture，所以没有4Csignal分布的bias(在viewpoint附近最强而随距离减弱)

trans相比cis频率要低很多，建议windows设置成500大小