【SCENIC】单细胞转录因子分析（1）

2023-09-20 本文已影响0人 jjjscuedu

植物单细胞文章见的少点，但是经常在人和动物的文章中见过SCENIC分析的结果，所以也来学习一下。

SCENIC是一种同时重建基因调控网络并从单细胞RNA-seq数据中鉴定stable cell states的工具。基于共表达和DNA模基序（motif）分析推断基因调控网络，然后在每个细胞中分析网络活性以鉴定细胞状态。

SCENIC发表于2017年的Nature method文章。当前版本的SCENIC好像只支持人类，鼠和果蝇（Drosophila melanogaster）。

============原理===========

GRN（gene regulatory network）基因调控网络包括TF（transcription factor转录因子）、cofactor（共调因子）与其调节的target gene 组成，决定了某个状态下的细胞的转录状态。SCENIC流程包括三步骤：

（1）使用GENIE3或GRNBoost (Gradient Boosting) 基于共表达推断转录因子与候选靶基因之间的共表达模块。

（2）由于GENIE3模型只是基于共表达，会存在很多假阳性和间接靶标，为了识别直接结合靶标（direct-binding targets），使用RcisTarget对每个共表达模块进行顺式调控基序（cis-regulatory motif）分析。进行TF-motif富集分析，识别直接靶标。（仅保留具有正确的上游调节子且显著富集的motif modules，并对它们进行修剪以除去缺乏motif支持的间接靶标。）这些处理后的每个TF及其潜在的直接targets gene被称作一个调节子（regulon）；

（3）使用AUCell算法对每个细胞的每个regulon活性进行打分。对于一个regulon来说，比较细胞间的AUCell 得分可以鉴定出哪种细胞有显著更高的subnetwork活性。结果生成一个二进制的regulon活性矩阵（binarized activity matrix），这将确定Regulon在哪些细胞中处于“打开”状态。

流程图

SCENIC需要输入的是单细胞RNA-seq表达矩阵—— 每列对应于样品（细胞），每行对应一个基因。基因ID应该是gene-symbol并存储为rownames （尤其是基因名字部分是为了与RcisTarget数据库兼容）；表达数据是Gene的reads count。根据作者的测试，提供原始的或Normalized UMI count，无论是否log转换，或使用TPM值，结果相差不大。

在进行GENIE3分析前要对数据进行过滤：

（1）过滤基因：对每个基因的总reads数进行过滤，去除最可能不可信的只提供噪音的基因。具体的值取决于数据，文章中用到3 UMI counts × 30 (1% of cells) = minimum 90 counts per gene

（2）过滤基因：在多少细胞中被检测到。去除只在少量细胞中表达的基因，如果这些基因正好在一个细胞中集合，将获得很大的权重。推荐1%。

【SCENIC】单细胞转录因子分析（1）

猜你喜欢

热点阅读