3D Genome

(PNAS 2019) scHiCluster(Part II:

2021-07-26  本文已影响0人  阿狸的窝

上一篇:(PNAS 2019) scHiCluster (Part I:文章梳理)

原文:
Zhou J, Ma J, Chen Y, Cheng C, Bao B, Peng J, Sejnowski TJ, Dixon JR, Ecker JR. Robust single-cell Hi-C clustering by convolution- and random-walk-based imputation. Proc Natl Acad Sci U S A. 2019 Jul 9;116(28):14011-14018. doi: 10.1073/pnas.1901423116. Epub 2019 Jun 24. PMID: 31235599; PMCID: PMC6628819.


基于 bulk Hi-C 数据生成单细胞Hi-C模拟数据

作者在文章中指出,单纯地将bulk Hi-C数据进行简单抽样(downsample至相同的total contacts number) 不能很好地模拟single-cell Hi-C数据。通过简单抽样得到的结果稀疏度(sparsity)和变异度(variabielity)均更低。

Figure S2 A-C
为解决此问题,作者首先将抽样控制的对象从total contacts变为sparsity
基于 Ramani et al.[3] 和 Flyamer et al.[4] 两个数据集,作者观察到 total contact C 与sparsity S间存在对数线性关系:
log S = a log C + b

具体步骤

  1. 原始数据获取:从Juicebox中提取100 kb resolution下的MAPQ30 contact matrices

  2. 分辨率整合: 整合得到200 kb 和 1Mb resolution的contact matrices(记作A

  3. 归一化校正:使用 SQRTVC normalization

    SQRTVC normalization
    D_{ii}= \sum_{j}A_{ij} \\ B = D^{-{1\over 2}} A D^{-{1\over 2}} \\

  4. 稀疏度控制:对于每个单细胞随机产生t \sim Union(logM-0.5, logM+0.5),则该细胞的total contacts为 C =e^t,根据log S = a log C + b 计算得到S

  5. 添加噪音: 当contact matrix包含n个bins时,随机生成一个长度为n的向量R,其中R_i \sim Union(-k,k)k 为 noise level。
    E_{ij} = B_{ij} \times R_{|j-i|}

6.生成模拟数据:从E中选取S个位点,将C个contacts分配在这些位置

E中随机选取S个位点,

作者基于Stevens et al.数据(8 G1-phase mESC),将8个单细胞数据合并到一起产生 pseudobulk 数据集,然后再从pseudobulk数据集中使用4种不同的方式抽样。将抽样产生的模拟scHiC数据与原有的真实scHiC数据放在一起进行主成分分析,作者证明了contol sparsity + noise 组可以更好的模拟真实的scHiC图谱。


截屏2021-07-26 下午5.51.59.png

scHiCluster

Convolution-based imputation

作者认为,scHiC的contact matrix中的0值并不意味着两个位点间不存在interaction,而应当视作由实验的技术手段导致的缺失值,因此需要进行imputation。
作者首先假设,如果位点A和位点B在空间上距离很近,则A应当与位点B在线性基因组上的邻居也很近。因此,作者使用Convolution-based imputation使信息在一维邻居间传递。

给定 window size w 和一个 m \times m的filter F
对于一个 n \times n的contact matrix A,imputed matrix
B_{ij} = \sum_{i-w \leq p \leq i+w\\j-w \leq q \leq j+w} F_{pq}A_{pq}

默认参数:

Random-walk-based imputation

Random walk with restarts(RWR) [6-7]
假设一个包含N个节点的图 G 具有邻接矩阵W
初始状态下,一名漫步者位于某一初始节点v_i
在每一轮的移动中,walker可以选择移动到任意的与当前节点相连的节点,到达每个点的概率与边权成正比。另外在每一轮漫步者有\gamma \in (0,1) 的概率返回起点。
P^{(t)}是一个N\times N的矩阵,其中P_{ij}^{(t)}为漫步者从v_i出发,经过t轮移动后位于v_j的概率
根据移动规则
P^{(t+1)}=(1-\gamma) W'_{ij}P^{(t)} + \gamma P^{(0)}
其中
W'_{ij}=\frac{W_{ij}}{\sum_jW_{ij}}
随着t的增大,P(t) 会趋于收敛

使用convolution-based imputation步骤得到的B作为邻接矩阵,则转移概率矩阵
C_{ij} = \frac{ B_{ij} }{ \sum_{j}B_{ij} }
初始化Q^{(0)}=I (单位阵)
设定restart概率为p,迭代计算 Q^{(t)} = (1-p)Q^{(t-1)}C + pI
|| Q^{(t)} - Q^{(t-1)} ||_2 < 10^{-6} 时,视作收敛,迭代结束

Select top interactions

记RWR收敛于矩阵Q
使用Q的80th quantile作为阈值t
Q转化为0/1矩阵Q_b (即仅选取top 20%的interaction)

Embedding

  1. n \times n的矩阵Q_b转化为长度为n^2的向量
  2. 所有m个细胞合并在一起得到 m \times n^2的矩阵
  3. 首先对于每条染色体分别使用PCA进行降维
  4. 将各染色体的结果合并到一起,使用PCA进行二次降维
  5. Figure S10中所使用的weight matrix 为两次PCA的weight matrix的点积(dot product)

clustering

使用前10个主成分(PCs)进行K-means ++ 无监督聚类(根据已知的细胞种类数目设定K)

K-means

  1. 初始时,随机选取k个样本作为聚类中心;
  2. 每一轮计算每个样本到各聚类中心的距离,并将样本分配到预期距离最近的中心所在类
  3. 对于每一类,计算该类中所有样本的质心作为该类新的中心
  4. 重复步骤2-3直至满足终止条件(小于最小误差或达到最大迭代步数)

K-means++
K-means++在Kmeans的基础上,对初始聚类中心的选择方法进行优化,聚类中心选取方法为:
初始时算法随机选取一个中心点a_1
假设已经选取了n个聚类中心,对于剩余的样本,计算每个样本距离已有的n个中心的距离,假设其中最远的距离为D(x),则该样本被选为第n+1个聚类中心的概率为
\frac{ D(x)^2 }{ \sum{D(x)^2} }
即与已有中心距离越远的样本,越有可能被选择为新的聚类中心


聚类效果评价

当细胞真实的所属类别已知时,使用ARI评价聚类的准确性。

Rand Index
假设:

  • 样本i的真实类别为X_i,聚类时被判定为第Y_i类;
  • 样本j的真实类别为X_j,聚类时被判定为地Y_j

定义:

  • TP : X_i =X_jY_i = Y_j (两个样本来自同一类,在聚类结果中也被归入同一类)
  • FP:X_i != X_jY_i = Y_j (两个样本属于不同类,但是在聚类结果中被归入同一类)
  • FN:X_i = X_jY_i != Y_j (两个样本属于同一类,但是在聚类中被归入不同类)
  • TN:X_i != X_jY_i != Y_j(两个样本来自不同类,在聚类中也被归入不同类)

定义
Rand\ Index = \frac{TP+TN}{TP+FP+TN+FN}

Adjusted Rand Index
对于两个随机划分,Rand Index的期望不为0,为解决这一问题,定义校正兰德系数
ARI = \frac{ RI - E(RI) }{ max(RI) - E(RI) }
ARI的取值在[-1,1]之间,负数代表结果不好,越接近于1越好对任意数量的聚类中心和样本数,随机聚类的ARI都非常接近于0


其他聚类方法

PCA

  1. 对于每个细胞,对raw contact matrices进行log2转化
  2. n\times n的矩阵转化为长度为n^2的向量
  3. 使用与scHiCluster相同的方法进行两轮PCA降维

HiCRep + MDS

  1. 使用 1-Mb resolution ,对raw contact matrices进行log2转化
  2. smoothed with window size 1
  3. 计算任2个细胞间对于每条染色体的 stratum-adjusted correlation (SCC) 系数,所有染色体的SCC的中位数作为最终的SCC distance(d_{scc}
  4. 将SCC距离转化为欧氏距离:d_{euc}=\sqrt{2-2d_{d_{scc}}}
  5. 基于Euclidean距离矩阵进行MDS降维

Eigenvector

1.对于每个细胞,对raw contact matrices进行log2转化

  1. 计算 distance-normalized matrix B
    B_{ij}= \frac{ A_{ij} }{ \sum_{i'} A_{i' + j-i} }
  2. 基于 distance-normalized matrix B 进行PCA降维,提取PC1作为细胞特征
    (特殊处理:分别计算 PC1>0 和 PC1<0 的bins的的平均CpG,如果后者更高则取PC1的相反数作为细胞特征)
  3. 联合m个细胞得到 m \times n的特征矩阵,使用PCA进行降维

Decay

此方法提取的是 P(d) ~ d 曲线特征,或者说是距离为d的contact占比

  1. 对于每个细胞,对raw contact matrices进行log2转化
  2. 计算decay 特征
    B_d = \frac{ \sum_j A_{j,j+d} }{ \sum_{i,j}A_{i,j} }

TAD-like structure identification

  1. TAD in bulk HiC (ESCs and NPCs): 使用TopDom(10 kb resolution, window size=5)计算得到TAD
  2. Figure 5D 中包含了 nondiagonal contacts > 100k 的 1007 个 mESC细胞,使用TopDom(40 kb resolution, window size=5)计算得到TLS

比较 TAD与TLS边界

假设在bulk Hi-C中有TAD边界(i,j),在scHiC中有TLS边界(i',j')
当满足一下条件时,认为 TAD与TLS重合

  1. |i'-i| \leq 80 kb|i'-i| \leq 0.25 \times (j-i)
  2. |j-j'| \leq 80 kb|j'-j | \leq 0.25 \times (j-i)

参考文献

[1] S. S. P. Rao et al., A 3D map of the human genome at kilobase resolution reveals principles of chromatin looping. Cell 159, 1665–1680 (2014).
[2] B. Bonev et al., Multiscale 3D genome rewiring during mouse neural development. Cell 171, 557–572.e24 (2017)
[3] T. J. Stevens et al., 3D structures of individual mammalian genomes studied by single- cell Hi-C. Nature 544,59–64 (2017).
[4] V. Ramani et al., Massively multiplex single-cell Hi-C. Nat. Methods 14,263–266 (2017)
[5] I. M. Flyamer et al., Single-nucleus Hi-C reveals unique chromatin reorganization at oocyte-to-zygote transition. Nature 544, 110–114 (2017).
[6] J.-Y. Pan, H.-J. Yang, C. Faloutsos, P. Duygulu, “Automatic multimedia cross-modal correlation discovery” in Proceedings of the Tenth ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, KDD ’04 (ACM, New York, 2004), pp 653–658.
[7] L. Cowen, T. Ideker, B. J. Raphael, R. Sharan, Network propagation: A universal am- plifier of genetic associations. Nat. Rev. Genet. 18, 551–562 (2017).

上一篇下一篇

猜你喜欢

热点阅读