网络CSI评估基因关联性及regulon聚类模块化

2024-02-06  本文已影响0人  生信云笔记

  在座各位,除了没放假的人,剩下的应该都放假了吧!放假回家过年前,最终还是决定要来见一下各位!

  学习单细胞转录因子分析流程SCENIC的时候,在一篇文献中看到过下面这样一张图。还不清楚SCENIC的同学可以移步这里:[pyscenic | 单细胞转录因子分析,原理图文详解]。

图注描述:

(A) Identified regulon modules based on regulon connection specificity index (CSI) matrix, along with representative transcription factors, corresponding binding motifs, and associated cell types.
(B) Zoomed-in view of module M7 identifies sub-module structures.
(C) Different sub-modules in M7 are associated with distinct immune cell types and regulon activities.

  想要搞明白上面的热图是怎么来的,那就得先搞清楚CSI是什么?由于CSI是基于bipartite network(二分网络)来计算的,所以首先还需了解bipartite network是什么,如下图所示:

  当一个网络的所有结点只能分成两类如上图中的X-typeY-type,同种类型内各结点之间没有联系,每种类别的结点只与另外一种类型的结点有联系,这样的网络称为bipartite network

  明白了bipartite network就可以来计算CSI了,下面来看看CSI的计算原理:

  可以看出CSIPCC (Pearson correlation coefficient)基础上得来,且只考虑相同结点类型,如上图计算AB间的CSI,只会考虑紫色类型结点C-F与A或B的PCC相较于ABPCC的情况 (而不考虑黄色结点),如其中PCC(A,C)大于 PCC(A,B) - 0.05,而D-F三个结点分别与A或B的PCC均小于PCC(A,B) - 0.05,故ABCSI3/6,可以看出CSI值越大两个基因间的关联性越大。

  为什么CSI可以更好地从网络角度反映结点间的关联性呢?因为CSI基于PCC描述了两个结点间的相关性在网络中的排序情况,从整体角度展示了两个节点间特异的相关性。如上图A-F为网络中的一类基因,如果仅仅计算AB间的PCC虽然可以说明这两个基因关系比较密切,但并不能说明两者间关系的特异性。但是,如果再考虑到其他结点点,考量PCC(A,B)超过多少其他结点分别与A或B的PCC情况,就可以知道AB间相关性的特异性怎么样。也就是说,这可以反映基因A与B间的关联度超过多少个与其他基因的关联,基因B与A间的关联度也超越多少个与其他基因的关联,说明基因A的表达与基因B更具相关性而不是与其他基因,基因B的表达也与基因A更紧密而不是与其他基因。因此,CSI不仅反映了基因间的相关性,也反映了这种相关性在网络整体中的关联程度。

  那么,现在咱们回过头来看开头提到的那张图,是如何计算regulon之间的CSI的呢?过程分为三步:首先,通过SCENIC流程得到regulon在细胞中的活性值;接着,基于活性值计算regulon间的PCC;最后,基于PCC计算regulon之间的CSI

  不过,这个时候的CSI与前面原本的略有不同,这里仅借用了CSI概念,计算过程不同。上面的CSI基于bipartite network,而此时的PCCregulon两两间的相关性为对称矩阵,所以计算CSI时忽略了bipartite network这个条件。例如regulon A和B间的CSI定义为所有与A或B相关的regulon里面,PCC小于PCC(A,B)的比例。

  得到了CSI就可以用来聚类画热图了,开头的那张热图便可以轻而易举地拿下了。当然,计算CSI无需手动计算,可以借助现有的包scFunctions里的函数calculate_csi来轻松搞定。

参考文献

<<Revealing the Critical Regulators of Cell Identity in the Mouse Cell Atlas>>
<<Using networks to measure similarity between genes: association index selection>>

上一篇 下一篇

猜你喜欢

热点阅读