网络CSI评估基因关联性及regulon聚类模块化
在座各位,除了没放假的人,剩下的应该都放假了吧!放假回家过年前,最终还是决定要来见一下各位!
学习单细胞转录因子分析流程SCENIC
的时候,在一篇文献中看到过下面这样一张图。还不清楚SCENIC
的同学可以移步这里:[pyscenic | 单细胞转录因子分析,原理图文详解]。
![](https://img.haomeiwen.com/i23667126/022b95d67e175849.png)
图注描述:
(A) Identified regulon modules based on regulon connection specificity index (CSI) matrix, along with representative transcription factors, corresponding binding motifs, and associated cell types.
(B) Zoomed-in view of module M7 identifies sub-module structures.
(C) Different sub-modules in M7 are associated with distinct immune cell types and regulon activities.
想要搞明白上面的热图是怎么来的,那就得先搞清楚CSI
是什么?由于CSI
是基于bipartite network
(二分网络)来计算的,所以首先还需了解bipartite network
是什么,如下图所示:
![](https://img.haomeiwen.com/i23667126/a32f8d0bc3343ec6.png)
当一个网络的所有结点只能分成两类如上图中的X-type
和Y-type
,同种类型内各结点之间没有联系,每种类别的结点只与另外一种类型的结点有联系,这样的网络称为bipartite network
。
明白了bipartite network
就可以来计算CSI
了,下面来看看CSI
的计算原理:
![](https://img.haomeiwen.com/i23667126/05623ce0e812e6a0.png)
可以看出CSI
在PCC (Pearson correlation coefficient)
基础上得来,且只考虑相同结点类型,如上图计算AB
间的CSI
,只会考虑紫色类型结点C-F
与A或B的PCC
相较于AB
间PCC
的情况 (而不考虑黄色结点),如其中PCC(A,C)
大于 PCC(A,B) - 0.05
,而D-F
三个结点分别与A或B的PCC均小于PCC(A,B) - 0.05
,故AB
的CSI
为3/6
,可以看出CSI
值越大两个基因间的关联性越大。
为什么CSI
可以更好地从网络角度反映结点间的关联性呢?因为CSI
基于PCC
描述了两个结点间的相关性在网络中的排序情况,从整体角度展示了两个节点间特异的相关性。如上图A-F
为网络中的一类基因,如果仅仅计算AB
间的PCC
虽然可以说明这两个基因关系比较密切,但并不能说明两者间关系的特异性。但是,如果再考虑到其他结点点,考量PCC(A,B)
超过多少其他结点分别与A或B的PCC
情况,就可以知道AB
间相关性的特异性怎么样。也就是说,这可以反映基因A与B间的关联度超过多少个与其他基因的关联,基因B与A间的关联度也超越多少个与其他基因的关联,说明基因A的表达与基因B更具相关性而不是与其他基因,基因B的表达也与基因A更紧密而不是与其他基因。因此,CSI
不仅反映了基因间的相关性,也反映了这种相关性在网络整体中的关联程度。
那么,现在咱们回过头来看开头提到的那张图,是如何计算regulon
之间的CSI
的呢?过程分为三步:首先,通过SCENIC
流程得到regulon
在细胞中的活性值;接着,基于活性值计算regulon
间的PCC
;最后,基于PCC
计算regulon
之间的CSI
。
不过,这个时候的CSI
与前面原本的略有不同,这里仅借用了CSI
概念,计算过程不同。上面的CSI
基于bipartite network
,而此时的PCC
为regulon
两两间的相关性为对称矩阵,所以计算CSI
时忽略了bipartite network
这个条件。例如regulon
A和B间的CSI
定义为所有与A或B相关的regulon
里面,PCC
小于PCC(A,B)
的比例。
得到了CSI
就可以用来聚类画热图了,开头的那张热图便可以轻而易举地拿下了。当然,计算CSI
无需手动计算,可以借助现有的包scFunctions
里的函数calculate_csi
来轻松搞定。
参考文献
<<Revealing the Critical Regulators of Cell Identity in the Mouse Cell Atlas>>
<<Using networks to measure similarity between genes: association index selection>>