文献阅读 | GAM:基于ligation-free方法捕获基因
上一篇:《文献阅读 | GAM:基于ligation-free方法捕获基因组中增强子间的复杂互作 (Part I:文章梳理)》
原文链接:
Beagrie RA, Scialdone A, Schueler M, et al. Complex multi-enhancer contacts captured by genome architecture mapping. Nature. 2017 Mar 23;543(7646):519-524. doi: 10.1038/nature21411. Epub 2017 Mar 8. PMID: 28273065; PMCID: PMC5366070.
https://www.nature.com/articles/nature21411
数据预处理
I. Alignment
- 使用Bowtie2(默认参数)将read mapped 到 mm9 参考基因组
- 仅保留MAPQ>=20 read
- 去除PCR duplicates
II. Calling positive windows
首先,将全基因组分为一系列连续bins(i.e. equal-sized windows)
III. Exclude low-quality datasets
作者共产生了471个nuclear profiles + 5 negative control 共477个样本
作者考察了以下质量指标:
- % of mapped reads
- % of non-PCR duplicate reads
- average sequencing quality
- Mononucleotide repeat score
- Dinucleotide repeat score
- total number of windows scored positive
- number of positive windows immediately adjacent to another positive window
- number of positive chromosome for each sample
使用以上所有质量指标作为特征,对所有477个样本进行主成分分析,发现 % of mapped read 指标是区分 nuclear profile 和 negative control 最有效的特征。
negative controls 中 % of mapped reads 最高为2%。严格起见,作者将 % of mapped reads 小于 15% 的细胞全部过滤掉,共过滤掉63个细胞,剩余408个高质量细胞。
Calculation of linkage matrices
假设:
(1)位点被检测到的频率为 ,位点 被检测到的频率为
(2) 是位点和同时被检测到的频率
定义Linkage disequilibrium
使用 linkage 的理论最大值 对进行归一化,得到Normalized Linkage disequilibrium
其中 的计算方法为:
染色质三维结构识别
compartment A/B
GAM识别compartment A/B的方法与Hi-C基本相同,具体过程如下:
-
使用normalized linkage matrices 替代 normalized contact matrices,记为原始矩阵为。
-
对按距离进行切片,定义片内所有locus pair的均值为该片的期望,即
-
定义
-
计算 的 Pearson 相关系数矩阵为 ,即
-
以为特征矩阵,进行主成分分析(PCA),提取前3个主成分
-
选择与GC含量相关最高的主成分,用于定义compartment A/B
TAD
TAD的计算参考了 2015 Crane et al. [1] 提出的用于Hi-C数据的 insulation score方法。
使用 3 x 3 window box 沿对角线滑动,计算每个window box内的normalized LD的平均值。
使用SLICE识别 prominent interacting locus
interacting locus pairs
Figure 3a核心思想:
假设基因组中的两个位点,在个NP中:
- 个既没有检测到A,也没有检测到B
- 个检测到或中的一个
- 个同时检测到或
定义的共出现(co-segregation)频率为
则当与的互作频率为时,根据SLICE model(详见《文献阅读 | GAM:基于ligation-free方法捕获基因组中增强子间的复杂互作 (Part III:SLICE 统计学模型)》可以计算得到co-segregation ratio服从的分布,并进行统计学检验: v.s 。
具体而言,计算 时的分布的95%分位值,当时,即认为间存在显著互作。
此外,对于prominent interacting pairs,SLICE model还可对进行估计(即Figure 3)
Interacting locus triplets
类似地,定义triplet co-segregation ratio 为
参考文献
[1] Crane, E., Bian, Q., McCord, R. et al. Condensin-driven remodelling of X chromosome topology during dosage compensation. Nature 523, 240–244 (2015). https://doi.org/10.1038/nature14450