sc-ATAC-seq细胞类型注释策略
解释任何单细胞测序数据的起点都是对给定数据集中的细胞簇进行注释。由于缺乏专门设计的工具以及在单细胞ATAC-seq数据中使用不直观的顺式和跨式调控元素(unintuitive cis- and trans-regulatory ),因此单细胞ATAC-seq数据中的细胞类型标注具有挑战性。本技术说明探索并演示了三种不同的策略,这些策略对于在单个细胞ATAC-seq数据中标注细胞类型所需的生物信息学专业知识的数量有所不同。
人骨髓单核细胞(BMMCs)和荧光激活细胞分选(FACS)富集CD34+造血祖细胞(AllCells),按照10x方案——单细胞ATAC测序的细胞核分离(文献CG000169)进行处理。单细胞ATAC文库按照《10X单细胞试剂试剂盒使用指南》(文档CG000168)编写,按每个细胞2 -5万个原始reads进行测序。测序数据通过cellranger-atac count
(v1.1.0)管道进行处理,使用cellranger-atac aggr
管道整合BMMCs和CD34+细胞数据。
下面概述的细胞类型注释策略是单细胞ATAC-seq数据中可能的细胞类型注释方法,不是cell Ranger ATAC软件的一部分。
Strategy 1. Annotation Using Cis-Regulatory Elements
使用Loupe cell Browser 3.1.1分析10321个bmmc和9084个CD34+细胞的ATAC-seq单胞数据。对CD34+祖细胞、CD4+ T细胞、CD8+/NK细胞、B细胞、单核细胞/树突状细胞进行细胞类型标记基因启动子可及性模式的可视化标记(图1)。通过将 fragments.tsv.gz 加载到peak viewer并根据每个窗口的cell类型导出剪切站点分布,从而从Loupe中导出特定于cell类型的剪切站点。
使用启动子注释细胞类型。A.已知细胞类型的标记基因的启动子可及性及后续的细胞类型注释。颜色表示所选启动子的log转换计数,红色=高值。A.从Loupe Cell Browser中导出切割位点的序列文件。NK:自然杀伤细胞;Mono:单核细胞;DC:树突细胞
Strategy 2: Annotation Using Cell Type-Specific Feature Set
第二种细胞类型注释方法使用一组用户定义的分子特征,包括细胞类型特异性峰值、细胞类型标记的基因激活分数或具有已知调控作用的转录因子的motif可达性。例如,为了使用细胞类型特定的峰值来注释细胞类型,我们对来自10,321个bmmc和9,084个CD34+细胞的单个细胞ATAC-seq数据应用了一个评分方案,该方案计算了细胞类型特定的峰值在背景可达性水平上的富集情况。
一套统一策划了130万年的峰值Epinomics来自29个FACS-sorted免疫细胞类型定义这些细胞类型的ATAC资料,基于以前公布的数据(1)细胞特定类型的山峰被定义为前200名丰富峰所选的所有其他细胞类型的细胞类型。背景被定义为500组200个随机选择的峰值。生成最大富集分数的细胞类型被标注到细胞中(图2)。
图2。使用cell型特定的功能集来注释。所选细胞类型的细胞类型富集评分分布。B.在单细胞ATAC-seq数据中,BMMCs + CD34+细胞中鉴定出19种主要的细胞类型。tSNE投影直接来自Cell Ranger ATAC管道。cell标签的大小按每个类型的丰度进行显示.
CLP: Common lymphoid progenitors
CMP: Common myeloid progenitor
DC: Dendritic cells
Ery: Erythroid
GMP: Granulocyte-macrophage progenitor
HSC: Hematopoietic stem cells
LMPP: Lympho-myeloid primed progenitor
MEP: Megakaryocyte-erythroid progenitor
Mono: Monocytes
MPPs: Multipotent progenitor cells
Neut: Neutrophills
NK: Natural killer cells
Strategy 3: Annotation Using RNA Sequencing Data as Reference
为了使用RNA-seq数据标注细胞类型,使用Chromium单细胞ATAC溶液从胚胎和成年小鼠脑组织(见下文)中生成单细胞ATAC-seq数据。胚胎和成年小鼠脑组织的参考RNA-seq数据集来自于先前的研究(2,3)。Seurat v3.0和Signac包(4)用于将单个单元的ATAC-seq数据和单个单元的RNA-seq数据合并到一个共享的简化维中,并基于RNA-seq数据中预注释单元的距离预测ATAC-seq数据的cell类型(图3)。
Query (single cell ATAC)
•P50 adult mouse cortex (3,927 cells)
•E18.5 mouse cortex, hippocampus & ventricular zone (4,115 cells)
Reference (single cell RNA)
•P30-40 mouse primary visual cortex & anterior lateral motor cortex (21,814 cells)
•P0 mouse cortex (7,614 cells)
图3。使用RNA-seq数据作为参考的注释。使用预先注释的RNA-seq数据注释来自成年和胚胎小鼠皮层的ATAC-seq数据的UMAP图分别显示在A和C中。来自成年和新生小鼠皮层的预先注释的RNA-seq数据的UMAP图分别显示在B和D中。该集成显示了参考RNA-seq和ATAC-seq数据之间的大量重叠。在成年小鼠皮层中发现了20多种不同的细胞类型,在E18.5小鼠皮层组织中发现了18种主要的细胞类型。主要细胞类型在成体和胚状体中的比例。
Validation of Cell Type Annotation Using RNA Sequencing Data as Reference
- Validation Using Gene Activity Scores
为了验证细胞类型注释,我们使用了R package Cicero(5)来计算来自胚胎和成年小鼠组织的单个细胞ATAC-seq数据的基因活性(GA)评分。为了计算GA分数,峰至基因注释和tSNE坐标(作为reduced_coordinates)直接从Cell Ranger ATAC输出中获得。使用strategy 3识别出的兴奋性神经元、抑制性神经元和各种胶质细胞类型的已知标记(图3C),并对其进行检查以确定正确的注释(图4A-B)。
UMAP单细胞投射的GA分数分布证实了策略3的结果。例如,胚胎期E18.5的神经元前体细胞标记Eomes的可达性高于成年期P50, SVZ区域富集较强(图4A),验证了策略3的结果。
- Validation Using Transcription Factor (TF) Deviation Scores
chromVAR(6)计算的转录因子(Transcription factor, TF)偏差分数可以测量TF活性,可以作为另一个验证细胞类型标注的来源。为了测量全局TF活性,我们从Cell Ranger ATAC管道的TF-barcode矩阵中获取输入计数矩阵,并选择JASPAR motif数据库作为输入motif数据库。然后使用建议的chromVAR工作流计算策略3(图3A)中来自成人组织的单个细胞ATAC-seq数据中识别的细胞类型的TF偏差分数(图4C)。
细胞类型特异性转录因子,如星形胶质细胞中的Noto和小胶质细胞中的Spi1,在相应的细胞类型中表现出排他的活性(图4C)。抑制神经元亚型中Mef2c TF偏差分数的比较证实了之前关于Pvalb亚型中Mef2c活性升高的报道(7)
图4。cell 注释的验证。A. E18.5 UMAP单细胞投射中的基因活性分布。B. UMAP单细胞投射中P50基因活性分布。红色阴影=高基因活性水平,灰色=启动子和邻近增强子检测不到的可及性。C.按细胞类型划分的成体TF活性。Y轴是转录因子活性评分,基于从chromVAR TF偏差z分数转换而来的p值的-log10。
讨论
利用细胞类型特异性顺式调控元件进行的细胞类型注释显示,在不同的细胞亚群中,启动子的可及性明显丰富,从而可以识别骨髓单核细胞中的主要细胞类型。在pseudo-bulk profile 中,簇中的所有细胞都聚集成一个单一的轨迹,在基因标记启动子附近的染色质可达性显示了一个更复杂的模式。如,CD4启动子表现出多个富集峰,其中只有一个具有CD4+ t细胞特异性,而其他的高峰在单核细胞和干细胞群体中也表现出很强的可达性。
使用细胞类型特定的特征集对细胞类型进行注释是对传统的基于基因标记的策略的扩展,在这种策略中,标记基因的列表被可解释的特征集所取代,从而提供了合并批量数据、转录因子基序位点或预先注释的基因集的灵活性。精细的细胞类型注释更详细地说明了CD34+祖细胞群的子结构,包括多能干细胞群(HSC, MPP)和承诺谱系祖细胞(CMP)。MEP、GMP和CLP(图2A-B)。先祖群体的子结构也可以与来自不同谱系的终末分化细胞相匹配,形成完整的发育轨迹,这一点在《应用注释——用单细胞ATAC-Seq破译表观遗传调控》(LIT000055)中得到了更详细的探讨。
这种无监督的、基于整合的策略将单个细胞的ATAC-seq数据嵌入到参考的单个细胞RNA-seq数据中,并且不需要任何标记基因的先验知识。可以通过计算基因和转录因子活性评分来验证注释(图4A-C)。基于集成的策略还可以扩展为任何类型的单细胞数据的注释。例如,可以使用预先注释的单细胞RNA数据集轻松地对单细胞RNA-seq数据进行注释。此外,整合的数据为描述增强子和目标基因之间的调控关系以及最终的基因调控网络提供了一个起点。
综上所述,我们证明了针对单个细胞ATAC-seq数据的三种互补细胞类型注释策略。所选择的cell 类型注释方法将取决于对感兴趣的示例类型或类似的示例类型可用的知识或数据。第一种策略是使用已知的cell类型标记,这是最简单的,并且可以在Loupe中很容易地显示出来。第二和第三种策略需要额外的生物信息处理和互补的参考数据集(例如,批量ATAC-seq或单细胞RNA-seq)。