Capturing cell type-specific chr
原文
Kim HJ, Yardımcı GG, Bonora G, Ramani V, Liu J, Qiu R, Lee C, Hesson J, Ware CB, Shendure J, Duan Z, Noble WS. Capturing cell type-specific chromatin compartment patterns by applying topic modeling to single-cell Hi-C data. PLoS Comput Biol. 2020 Sep 18;16(9):e1008173. doi: 10.1371/journal.pcbi.1008173. PMID: 32946435; PMCID: PMC7526900.
概要
为了解决单细胞HiC的细胞分型问题,作者提出将topic modeling(LDA)模型应用于单细胞HiC数据。
为了验证模型效果,作者新产生了19k 细胞的sci-HiC[1],覆盖5种细胞类型,并说明当数据的coverage较低时,LDA模型对不同类型细胞的区分效果优于scHiCluster。
之后,通过鉴定细胞类型特异性topic,以及与这些topic强相关的Locus pair所属的compartment,作者表明细胞类型特异性topic与细胞类型特异性的compartment structure相关。
数据概要
作者使用sci-HiC[1]新产生了5个细胞系(GM12878, H1Esc, HFF, IMR90, and HAP1)单细胞HiC数据
![](https://img.haomeiwen.com/i21550152/6920ff9cef65982d.png)
算法流程
![](https://img.haomeiwen.com/i21550152/7dd9b109dca710c4.png)
- 使用500 kb resolution,仅考虑距离在10 Mb以内的interaction locus pairs (LP),得到 19388 cells X 111340 LPs 的0/1矩阵
- 训练LDA model,得到 19388 cells x 30 topics 的 cell-topic matrix
- 使用cell-topic matrix作为特征矩阵进行UMAP 可视化(Figure 2A)
- 根据normalized topic contribution 鉴定 cell type-specific topic
结果
使用 topic modeling 进行细胞聚类
使用 cell-topic matrix 作为特征矩阵进行UMAP可视化,相同类型的细胞明显聚集在一起。作者认为HFF和IMR90 两类细胞区分不明显是因为两种细胞较为相近,都是成纤维细胞。
![Figure 2A | 3种Embedding方法可视化结果] (https://img.haomeiwen.com/i21550152/3a4f028ec10c4c25.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)
作者使用silhouette coefficient 评价聚类效果,同样证明了LDA的表现均优于PCA和scHiCluster。
silhouette coefficient
: 细胞
与不同组细胞间的平均距离
: 细胞
与同组细胞间的平均距离
==提问:距离计算是否合理?使用ARI作为评价指标的结果?==
作者指出,scHiC在此表现不佳的主要原因是数据coverage低(contacts / cell 过少),如果过滤掉 non-diagonal contacts < 5k 的细胞(88.4%细胞),scHiCluster同样有很好的表现。
Cell type-specific topics
作者使用 pairwise two-sample Wilcoxon tests 在30个top中鉴定得到5种细胞的细胞类型特异性topic(即属于该种细胞类型的单细胞的normalized topic contribution与其他4种类型细胞均有显著差异)
![](https://img.haomeiwen.com/i21550152/951ad0712eb88d0c.png)
将 topic modeling 应用于已发表数据集
之后,作者还鉴定了与每个topic最为相关的locus pairs(LP),每个topic大约有400个强相关LP。
此外,作者将此方法分别应用于 2017 Nagano et al. [2] 数据集和 2017 Flyamer et al. [3] 数据集。
对于Nagano et al.数据集,Embedding可视化后可以展示出细胞随细胞周期的变化,cell cycle-specific topic 主要捕捉了interaction长度特点。
![](https://img.haomeiwen.com/i21550152/5a6d16484daff479.png)
但是将topic modeling应用于Flyamer et al.数据集时,由于该数据集细胞数少,coverage变异大,LDA不能很好地捕捉到细胞类型特异性topic,将所有细胞的contacts number downsampled至同一水平后oocytes和zygotes得以分开。
![](https://img.haomeiwen.com/i21550152/5fe5912ce93f2fa8.png)
如何解读 cell-type specific topic
比较5种细胞类型的compartment A/B region,作者定义了细胞类型特异性的 compartment switching region(即某一region在一种细胞类型中所属的compartment与在其他细胞类型中不同)。
在此基础上,作者发现,compartment switching regions 在 cell type-specific topics的locus pairs 中富集,并且主要富集的类型是 B-to-A transition。
![](https://img.haomeiwen.com/i21550152/096f586b4dc4084f.png)
参考文献
[1] Ramani V, Deng X, Qiu R, Gunderson KL, Steemers FJ, Disteche CM, et al. Massively multiplex single- cell Hi-C. Nature Methods. 2017 Mar; 14(3):263–266. https://doi.org/10.1038/nmeth.4155 PMID: 28135255[4] T. Nagano et al., (4)Cell-cycle dynamics of chromosomal organization at single-cell res- olution. Nature 547,61–67 (2017).
[2] T. Nagano et al., (4)Cell-cycle dynamics of chromosomal organization at single-cell resolution. Nature 547,61–67 (2017).
[3] I. M. Flyamer et al., Single-nucleus Hi-C reveals unique chromatin reorganization at oocyte-to-zygote transition. Nature 544, 110–114 (2017).