【SCENIC】单细胞转录因子分析(1)
植物单细胞文章见的少点,但是经常在人和动物的文章中见过SCENIC分析的结果,所以也来学习一下。
SCENIC是一种同时重建基因调控网络并从单细胞RNA-seq数据中鉴定stable cell states的工具。基于共表达和DNA模基序 (motif)分析推断基因调控网络 ,然后在每个细胞中分析网络活性以鉴定细胞状态。
SCENIC发表于2017年的Nature method文章。当前版本的SCENIC好像只支持人类,鼠和果蝇(Drosophila melanogaster)。
============原理===========
GRN(gene regulatory network)基因调控网络包括TF(transcription factor转录因子)、cofactor(共调因子)与其调节的target gene 组成,决定了某个状态下的细胞的转录状态。SCENIC流程包括三步骤:
(1)使用GENIE3或GRNBoost (Gradient Boosting) 基于共表达推断转录因子与候选靶基因之间的共表达模块。
(2)由于GENIE3模型只是基于共表达,会存在很多假阳性和间接靶标,为了识别直接结合靶标(direct-binding targets),使用RcisTarget对每个共表达模块进行顺式调控基序(cis-regulatory motif)分析。进行TF-motif富集分析,识别直接靶标。(仅保留具有正确的上游调节子且显著富集的motif modules,并对它们进行修剪以除去缺乏motif支持的间接靶标。)这些处理后的每个TF及其潜在的直接targets gene被称作一个调节子(regulon);
(3)使用AUCell算法对每个细胞的每个regulon活性进行打分。对于一个regulon来说,比较细胞间的AUCell 得分可以鉴定出哪种细胞有显著更高的subnetwork活性。结果生成一个二进制的regulon活性矩阵(binarized activity matrix),这将确定Regulon在哪些细胞中处于“打开”状态。
流程图SCENIC需要输入的是单细胞RNA-seq表达矩阵—— 每列对应于样品(细胞),每行对应一个基因。基因ID应该是gene-symbol并存储为rownames (尤其是基因名字部分是为了与RcisTarget数据库兼容);表达数据是Gene的reads count。根据作者的测试,提供原始的或Normalized UMI count,无论是否log转换,或使用TPM值,结果相差不大。
在进行GENIE3分析前要对数据进行过滤:
(1)过滤基因:对每个基因的总reads数进行过滤,去除最可能不可信的只提供噪音的基因。具体的值取决于数据,文章中用到3 UMI counts × 30 (1% of cells) = minimum 90 counts per gene
(2)过滤基因:在多少细胞中被检测到。去除只在少量细胞中表达的基因,如果这些基因正好在一个细胞中集合,将获得很大的权重。推荐1%。