3D Genome

Capturing cell type-specific chr

2021-07-28  本文已影响0人  阿狸的窝

原文
Kim HJ, Yardımcı GG, Bonora G, Ramani V, Liu J, Qiu R, Lee C, Hesson J, Ware CB, Shendure J, Duan Z, Noble WS. Capturing cell type-specific chromatin compartment patterns by applying topic modeling to single-cell Hi-C data. PLoS Comput Biol. 2020 Sep 18;16(9):e1008173. doi: 10.1371/journal.pcbi.1008173. PMID: 32946435; PMCID: PMC7526900.

软件地址https://github.com/khj3017/schic-topic-model

概要

为了解决单细胞HiC的细胞分型问题,作者提出将topic modeling(LDA)模型应用于单细胞HiC数据。
为了验证模型效果,作者新产生了19k 细胞的sci-HiC[1],覆盖5种细胞类型,并说明当数据的coverage较低时,LDA模型对不同类型细胞的区分效果优于scHiCluster。
之后,通过鉴定细胞类型特异性topic,以及与这些topic强相关的Locus pair所属的compartment,作者表明细胞类型特异性topic与细胞类型特异性的compartment structure相关。

数据概要

作者使用sci-HiC[1]新产生了5个细胞系(GM12878, H1Esc, HFF, IMR90, and HAP1)单细胞HiC数据


Table 1

算法流程

Figure 1 | 工作流程
  1. 使用500 kb resolution,仅考虑距离在10 Mb以内的interaction locus pairs (LP),得到 19388 cells X 111340 LPs 的0/1矩阵
  2. 训练LDA model,得到 19388 cells x 30 topics 的 cell-topic matrix
  3. 使用cell-topic matrix作为特征矩阵进行UMAP 可视化(Figure 2A
  4. 根据normalized topic contribution 鉴定 cell type-specific topic

结果

使用 topic modeling 进行细胞聚类

使用 cell-topic matrix 作为特征矩阵进行UMAP可视化,相同类型的细胞明显聚集在一起。作者认为HFF和IMR90 两类细胞区分不明显是因为两种细胞较为相近,都是成纤维细胞。
![Figure 2A | 3种Embedding方法可视化结果] (https://img.haomeiwen.com/i21550152/3a4f028ec10c4c25.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

作者使用silhouette coefficient 评价聚类效果,同样证明了LDA的表现均优于PCA和scHiCluster。

silhouette coefficient
silhouette\ coefficient = \frac{ p(i)-q(i) }{ max \{ p(i),q(i) \} }
p(i): 细胞i与不同组细胞间的平均距离
q(i): 细胞i与同组细胞间的平均距离

==提问:距离计算是否合理?使用ARI作为评价指标的结果?==

作者指出,scHiC在此表现不佳的主要原因是数据coverage低(contacts / cell 过少),如果过滤掉 non-diagonal contacts < 5k 的细胞(88.4%细胞),scHiCluster同样有很好的表现。

Cell type-specific topics

作者使用 pairwise two-sample Wilcoxon tests 在30个top中鉴定得到5种细胞的细胞类型特异性topic(即属于该种细胞类型的单细胞的normalized topic contribution与其他4种类型细胞均有显著差异)

Figure 3B | 细胞类型特异性topic

将 topic modeling 应用于已发表数据集

之后,作者还鉴定了与每个topic最为相关的locus pairs(LP),每个topic大约有400个强相关LP。

此外,作者将此方法分别应用于 2017 Nagano et al. [2] 数据集和 2017 Flyamer et al. [3] 数据集。
对于Nagano et al.数据集,Embedding可视化后可以展示出细胞随细胞周期的变化,cell cycle-specific topic 主要捕捉了interaction长度特点。

Fig 4A-C

但是将topic modeling应用于Flyamer et al.数据集时,由于该数据集细胞数少,coverage变异大,LDA不能很好地捕捉到细胞类型特异性topic,将所有细胞的contacts number downsampled至同一水平后oocytes和zygotes得以分开。


Figure S14 and Figure 5A

如何解读 cell-type specific topic

比较5种细胞类型的compartment A/B region,作者定义了细胞类型特异性的 compartment switching region(即某一region在一种细胞类型中所属的compartment与在其他细胞类型中不同)。
在此基础上,作者发现,compartment switching regions 在 cell type-specific topics的locus pairs 中富集,并且主要富集的类型是 B-to-A transition。

Figure 6 | cell type-specific topics 中的locus pairs富集compartment switchign regions

参考文献

[1] Ramani V, Deng X, Qiu R, Gunderson KL, Steemers FJ, Disteche CM, et al. Massively multiplex single- cell Hi-C. Nature Methods. 2017 Mar; 14(3):263–266. https://doi.org/10.1038/nmeth.4155 PMID: 28135255[4] T. Nagano et al., (4)Cell-cycle dynamics of chromosomal organization at single-cell res- olution. Nature 547,61–67 (2017).
[2] T. Nagano et al., (4)Cell-cycle dynamics of chromosomal organization at single-cell resolution. Nature 547,61–67 (2017).
[3] I. M. Flyamer et al., Single-nucleus Hi-C reveals unique chromatin reorganization at oocyte-to-zygote transition. Nature 544, 110–114 (2017).

上一篇 下一篇

猜你喜欢

热点阅读