Hi-C3D Genome

文献阅读 | MrTADFinder: A network mo

2021-08-03  本文已影响0人  阿狸的窝

原文链接:
Yan KK, Lou S, Gerstein M. MrTADFinder: A network modularity based approach to identify topologically associating domains in multiple resolutions. PLoS Comput Biol. 2017 Jul 24;13(7):e1005647. doi: 10.1371/journal.pcbi.1005647. PMID: 28742097; PMCID: PMC5546724.

算法思想

contact matrix → contact network

本文作者提出可以从图论中网络分析的角度,将Hi-C数据视作有权网络(weighted network),采用 network community detection probolem 的思想寻找 contact map 中的TAD

对于一个特定resolution下的contact matrix,每个node代表一个bin (loci),两个bin之间的itneraction用weighted edge表示,优化目标是使 modularity 最小化。
Q = {1\over 2m}\sum_{vw}(A_{vw}-E[A_{vw}])\delta(c_v,c_w)

但是在此基础上,TAD划分与经典的community detection 有2点不同

Point1:如何计算 E[A_{vw}]

在经典网络模型中,认为两个节点间形成边的概率仅与2个节点的度相关,即 E[A_{vw}]=\frac{k_vk_w}{2m}

而作者提出对于Hi-C网络,两个位点间的期望的contacts和位点间的距离成正比。

因此作者对原有的modulairty计算公式中的E[A_{vw}]进行改写。

作者给出的模型中,对于一个给定的total contact为N的intra-chromosomal contact map W

Q = {1\over 2N}\sum(W_{ij}-\gamma E_{ij})\delta(c_i,c_j) \\ E_{ij}=\kappa_i^*\kappa_j^*f(|i-j|)

其中,

Point2: TAD必须是基因组上一段连续的区域

使用经典的louvain算法计算得到的community由不连续的bin组成,因此作者对louvain算法进行了改造。

Figure 1

Customized Louvain algorithm

step0. Initialization

初始化:为每个bin分配1个独特的module label

step1. local optimization

每一轮,

按照随机顺序对所有bin进行遍历,

对于每个bin尝试将每个bin合并入其左邻或右邻所在的Module

如果合并后Q值增大则改变该bin所属的label

迭代执行上一步,直至所有节点的module label不再发生变化

step2. global optimization

将每个module视作一个单元,重复进行step1

Point3: 算法稳定性

考虑到Louvain算法具有不稳定性,作者对于一个给定的W进行多轮划分,并定义每个bin的boundary score 为:在多轮TAD划分中,bin i 被标定为domain boundary的比例。

作者选择 0.9 作为 cut-off,即认为 boundary score > 0.9 的bin为consensus boundary。

通过对参数\gamma 进行调节可以控制TAD的大小,\gamma 越大,检出的TAD size越小,数目越多

Figure 2

其他结果

作者使用MrTADFinder探究TAD boundary位点具有的特征

作者观察到

  1. TAD boundary处有H3K4me3等活跃性组蛋白修饰的富集,且\gamma 越小趋势越明显
  2. TAD boundary处有gene TSS的富集,且housekeeping gene的富集程度高于其他基因; 同样是\gamma 越小趋势越明显
  3. HOT(High TF-occupancy target)区域和XOT(Extreme TF-occupancy target)区域在TAD boudnary
  4. 部分TAD boundary 处的 mutation burden rate发生改变
上一篇下一篇

猜你喜欢

热点阅读