3D Genome

文献阅读 | GAM:基于ligation-free方法捕获基因

2021-08-18  本文已影响0人  阿狸的窝

上一篇:《文献阅读 | GAM:基于ligation-free方法捕获基因组中增强子间的复杂互作 (Part I:文章梳理)》

原文链接
Beagrie RA, Scialdone A, Schueler M, et al. Complex multi-enhancer contacts captured by genome architecture mapping. Nature. 2017 Mar 23;543(7646):519-524. doi: 10.1038/nature21411. Epub 2017 Mar 8. PMID: 28273065; PMCID: PMC5366070.
https://www.nature.com/articles/nature21411

数据预处理

I. Alignment

II. Calling positive windows

首先,将全基因组分为一系列连续bins(i.e. equal-sized windows)

III. Exclude low-quality datasets

作者共产生了471个nuclear profiles + 5 negative control 共477个样本
作者考察了以下质量指标:

使用以上所有质量指标作为特征,对所有477个样本进行主成分分析,发现 % of mapped read 指标是区分 nuclear profile 和 negative control 最有效的特征。

negative controls 中 % of mapped reads 最高为2%。严格起见,作者将 % of mapped reads 小于 15% 的细胞全部过滤掉,共过滤掉63个细胞,剩余408个高质量细胞。

Calculation of linkage matrices

假设:
(1)位点A被检测到的频率为 f_A,位点B 被检测到的频率为f_B
(2)f_{AB} 是位点AB同时被检测到的频率

定义Linkage disequilibrium
D = f_{AB}-f_Af_B
使用 linkage D 的理论最大值D_{max}D进行归一化,得到Normalized Linkage disequilibrium
D' = \frac{D}{D_{\max}}
其中 D_{max} 的计算方法为:
D_{\max} = \begin{cases} min(f_af_b, (1-f_a)(1-f_b)) & D<0 \\ min(f_b(1-f_a),f_a(1-f_b)) & D \geq0 \end{cases}

染色质三维结构识别

compartment A/B

GAM识别compartment A/B的方法与Hi-C基本相同,具体过程如下:

  1. 使用normalized linkage matrices 替代 normalized contact matrices,记为原始矩阵为O

  2. O按距离进行切片,定义片内所有locus pair的均值为该片的期望,即
    E(i,j) = average\{ O(i', j') | dist(i,j)=dist(i',j') \}

  3. 定义 K(i,j) = O(i,j) / E(i,j)

  4. 计算 K 的 Pearson 相关系数矩阵为 C,即
    C(i,j) = corr(K_i, K_j)

  5. C为特征矩阵,进行主成分分析(PCA),提取前3个主成分

  6. 选择与GC含量相关最高的主成分,用于定义compartment A/B

TAD

TAD的计算参考了 2015 Crane et al. [1] 提出的用于Hi-C数据的 insulation score方法。
使用 3 x 3 window box 沿对角线滑动,计算每个window box内的normalized LD的平均值。

使用SLICE识别 prominent interacting locus

interacting locus pairs

Figure 3a

核心思想:
假设基因组中的两个位点A,Bm个NP中:
- m_0个既没有检测到A,也没有检测到B
- m_1个检测到AB中的一个
- m_2个同时检测到AB

定义A,B的共出现(co-segregation)频率为
m_2 / (m_1 + m_2)

则当AB的互作频率为\pi时,根据SLICE model(详见《文献阅读 | GAM:基于ligation-free方法捕获基因组中增强子间的复杂互作 (Part III:SLICE 统计学模型)》可以计算得到co-segregation ratio服从的分布,并进行统计学检验:H_0:\{ \pi =0 \} v.s H_1: \{ \pi > 0 \}
具体而言,计算 \pi=0时的分布的95%分位值t,当\frac{m_2}{m_1+m_2}>t时,即认为A,B间存在显著互作。

此外,对于prominent interacting pairs,SLICE model还可对\pi进行估计(即Figure 3)

Interacting locus triplets

类似地,定义triplet co-segregation ratio 为
m_3 / (m_3 + m_2 + m_1)

参考文献

[1] Crane, E., Bian, Q., McCord, R. et al. Condensin-driven remodelling of X chromosome topology during dosage compensation. Nature 523, 240–244 (2015). https://doi.org/10.1038/nature14450

上一篇下一篇

猜你喜欢

热点阅读