生物信息学从零开始学

一对多的染色质互作

2020-05-23  本文已影响0人  Shaoqian_Ma

这里主要介绍HiChIP和4C

HiChiP: efficient and sensitive analysis of protein-directed genome architecture

参考:https://www.nature.com/articles/nmeth.3999

Schematic of HiChIP method

HiChIP通过裂解细胞前就在细胞核中交联,从而降低假阳性,最大化提高DNA contact的捕获效率。然后收集细胞核,在原位产生Hi-C交联,利用生物素标记DNA末端。接着进行细胞核的裂解,超声打断DNA,后续用特异性的抗体进行ChIP实验。得到DNA蛋白复合物后,进行DNA洗脱和反向交联。随后,进行生物素捕获Hi-C交联和文库制备,上机测序。

作者所认为的技术优势包括:

  1. 构象信息读取的产量提高了10倍以上
  2. 相对于ChIA-PET,样本要求降低了100倍以上(前者要求几百万个细胞)
  3. 所需细胞数量低于Hi-C
schematic.jpg

与以前的研究相类似地,CTCF motif基本是都是convergent orientation, 且HiChIP进一步降低了细胞数量:


motif_cellnumber.jpg

作者借鉴了4C的viewpoint分析方法(virtual 4C),分析了感兴趣位点附近的信号分布并与Hi-C做了比较:

compareHiC.jpg

To precisely visualize enrichment of HiChIP relative to in situ Hi-C we employed virtual 4C, where a specific genomic region is selected as an anchor ‘view point’, and all PETs connecting to that anchor are visualized as a line plot.

Viewpoint在这里是指XistRNA的启动子

Overview of 4C

接下来以4C为例进行讨论,参考:Chapter Four - 4C Technology: Protocols and Data Analysis

因为HiChIP和4C类似的一点是都是一个感兴趣位点对多位点的互作,所以这里可以了解一些4C的背景;另外,HiChIP中也提到了viewpoint coverage的分析方法,这个分析方法就是借鉴了4C

4C 不仅可以检测大的染色质范围的相互作用,也可以检测小的局部的调控元件互作。对于如急性淋巴细胞白血病的研究,可以检测染色质重排事件的发生。

因为4C是检测所有与感兴趣的位点相互作用的基因组区域,我们把感兴趣的位点称作view-points或者bait,被交联的区域成为captures

4C的protocol涉及两次酶切RE和两次连接ligation:

4C_technology.jpg

第一次酶切是为了方便顺利连接成环状DNA,第二次酶切是为了方便特殊设计引物的PCR

这里涉及4-cut和6-cut酶的选择问题,一般选择4-cut且切割位点GC均衡的酶,切割没有GC偏倚且频率相对高一些。另外,RE不能对甲基化修饰敏感。

Background: The first digestion is performed on cross-linked material: this digest defines the sizes and position of fragments between which contacts (cross-links) are analyzed. Most REs are not able to properly digest crosslinked material. We use the six base pair-cutting enzymes HindIII, EcoRI, BglII or the more frequently cutting four base pair-recognizing enzymes DpnII, NlaIII, and Csp6I (none blocked by CpG methylation), as these in our hands digest cross-linked chromatin well.

最好每个阶段对DNA产物跑电泳检测一下:PCR后的大概在500bp左右

Intermediate steps of the 4C procedure.jpg

Data analysis

比对

4C需要把reads按照对应的primer分别合并成bins,也就是每个bins对应一个viewpoint

质控

分为三个指标:

对于单个4C实验,一般需要1M以上的reads

对于RE是six cutters的,每一侧的窗口大小为1M;对于RE是four cutters的,每一侧的窗口大小为0.1M

4C_QC.jpg

cis/overall ratio of >40% 为可接受范围,trans的reads一般会被认为是random ligation

上图的质控反映reads在viewpoint附近的分布情况,理论上高质量的数据都集中在B区域。

PCR产物中两种明显的副产物就是noncut和self-ligated reads。前者是1st RE消化效率太低造成,后者是同一个viewpoint的片段自己连起来,而没有和capture片段连接,这种reads也是要抛弃的

如果需要local interaction,建议用4 cutters

In cis data

作者应用running-window approach,平滑序列数据:图中110附近信号值最强,就是viewpoint的位置


4C_results.jpg

和RNA-seq不同,4C数据中reads实际的counts数不是我们感兴趣的,我们感兴趣的是实际有哪些位点的相互作用能被捕获到,所以在作者讨论的分析算法中,第一步需要binarize数据,变成0和1编码,这样一方面避免了PCR扩增偏倚带来的counts偏倚,一方面,信号值与reads到viewpoints的距离成反比(没有意义,我们只要知道capture是什么),所以二进制编码也不用考虑这个

最合适的Windows大小为100,对每个window的capture数目与background比较做统计学检验。

Trans analysis

trans数据实际上很多是random ligation的结果

基本是和cis分析相似,不过因为viewpoint在它的染色体上没有capture,所以没有4Csignal分布的bias(在viewpoint附近最强而随距离减弱)

trans相比cis频率要低很多,建议windows设置成500大小

上一篇下一篇

猜你喜欢

热点阅读