SCENIC是干啥的?
SCENIC是干啥的?
【输入】motif数据库、单细胞RNA-seq数据
【输出】regulons、每个细胞的regulon activity scores (RAS)
【意义】构建转录调控网络、鉴定cell-state,帮你挖转录调控机制。
啥样的文章用到SCENIC?
引用SCENIC文章的要么是顶级生信综述,要么是CNS。
应用领域广泛,从人到小鼠、果蝇,从肿瘤、心血管疾病、肺纤维化到新冠病毒。
图片SCENIC怎样用到文章里?
我们来看FigureYa194pySCENIC所复现的例文的研究思路。文章一共四个Figure,前三个都用到了SCENIC。
图片第一步,找到regulon
-
通过基因共表达分析,建立可能的TF-target调控关系;
-
通过motif分析,建立TF-target的直接调控关系。
-
这样对每个TF,我们可能会找到若干个直接下游,这些基因我们将之命名为regulon。
-
对每个细胞计算regulon activity score (RAS);
-
再用RAS对细胞降维,画出Figure 1。
Figure 1. Mapping Mouse Cell Network Atlas with Regulon Activity
第二步,找到细胞类型特异的regulon
计算RSS(Regulon specific score) matrix,寻找特定细胞特异的regulon,并利用SEEK进行验证。绘制文章的Figure2。
图片Figure 2. Cell-Type-Specific Regulon Activity Analysis
第三步,找regulon Modules和Cell type的对应关系
计算CSI(Connection Specificity Index) matrix,基于CSI对regulon进行层次聚类,绘制Figure3的Heatmap。从JASPAR数据库下载给定转录因子的motif矩阵,绘制Figure3的motif logo。
图片Figure 3. Identification of Combinatorial Regulon Modules
FigureYa194pySCENIC带你复现****文章的KEY Figure——Figure 2,顺便画出Figure 1和Figure 3。
怎样实现以上研究内容?
看Jarning详细解析文章的method:
用的是已发表的数据
2018年郭国冀团队利用其自主的高通量单细胞转录组技术Microwell-seq对小鼠全身的组织进行了单细胞转录组测序。这组数据标记清晰,有两个数据集:subsampled ~61K cells和whole MCA ~250K cells。本文用的是前者。
用SCENIC推测regulons及其activity
作者没有直接用SCENIC进行分析。而是在分析前对数据做了一个pooling,即:将同一个cluster的细胞每20个pooling到一块(无放回抽样),得到一个新的转录组,作者称为Avg20
。作者的考虑如下:
-
SCENIC对细胞数量的扩展性不够好。(太多细胞会降低SCENIC的性能)
-
测序深度不够会影响SCENIC的结果。(
Micorwell-seq
的测序深度相对于其它技术较浅)
作者随后在figure S1
中说明了Avg20的对聚类效果的提升以及对regulon的稳定性的影响。
作者主要选择了三个指标进行性能比较:
-
Silhouette Value(boxplot + t test)
-
TF-Regulon的一致性(Venn plot + fisher exact test)
-
不同replicates之间RAS(Regulon Activity Scores)的相关性
【注1】Silhouette Value:轮廓系数。见:https://blog.csdn.net/wangxiaopeng0329/article/details/53542606
【注2】Regulon Activity Scores:来自于SCENIC的结果。用来描述一个TF + Regulon在细胞中的转录活性。
计算cell-type specificity score
在通过SCENIC分析得到了regulon的结果后,作者定义了RSS(Regulon Specificity Score)来寻找细胞类型特异的转录调控网络。
图片换个方法验证
作者对找到的cell specific regulon利用其它的方法进行了验证。
(1)SEEK analysis,2000+ GEO datasets. 检验
a)regulon genes是否是共表达的
b)regulon基因是否和给定细胞类型有相关性
(2)CoCiter analysis,文献挖掘,检验一组基因是否和某个term(本文使用的是细胞类型)有相关性。
分析Regulon module
作者在这里分析了regulon之间的关系。首先显而易见的方法是通过RAS来计算不同regulon之间的相关性系数(PCC, Pearson Correlation Coefficient)。
作者基于PCC,计算了CSI(Connection Specificity Index)来衡量regulon pairs之间的相关性。
regulon A和regulon B的CSI定义为所有和A,B相关的regulons pairs中,PCC小于PCC(A,B)的比例。显而易见,CSI越大,那么regulon A和regulon B的相关性越大。
CSI的好处是可以不受到极端值的影响。regulon A和regulon B的CSI的计算如下
图片这样我们就得到了CSI matrix。接下来作者对CSI matrix进行层次聚类,画出Figure 3。
CSI > 0.7对CSI matrix进行二值化,在此基础上构建相关性网络,即Figure 4。