DNA-seq 单细胞测序

scATAC:人类胎儿的染色质开放细胞图谱(1)

2021-12-25  本文已影响0人  科研菜鸟

人类胎儿的染色质开放细胞图谱(1):
Annotating cell types:
通过利用 scRNA-seq 数据集,可以简化 scATAC-seq 数据集中细胞类型的注释 (13, 23–25)。为了部分自动化我们的 sci-ATAC-seq 数据的细胞类型注释,我们首先在我们的 sci-RNA-seq 数据中注释了相同组织的细胞类型 (16)。

其次,我们计算了 sci-ATAC-seq 数据的基因级可访问性分数,汇总了落在其 TSS 上游 2 kb 的基因体内的转座事件数量。

第三,我们使用每种数据类型的逐细胞基因矩阵作为基于非负最小二乘法 (NNLS) 回归 (26) 寻找聚类之间可能对应关系的方法的输入,有效地产生了“lift-over”我们的 sci-ATAC-seq 集群的自动注释集。

最后,我们通过检查每个组织内每种细胞类型的marker gene周围的pileups来手动审查这些自动注释,根据需要对分配的标签进行修改(图 2A 和图 S3A)。尽管其他方法在单细胞数据的多模式集成 (23) 方面表现出相当大的前景,但我们发现这种cluster-to-cluster的 NNLS 方法 (26) 足以满足我们的目的,而且计算强度要低得多。


image.png

总的来说,如果我们包含置信度较低的标签,我们能够注释 172 个集群中的 150 个(87%),或者 172 个集群中的 163 个(95%)。一些簇在同一组织内收到相同的注释并被合并,从而在所有组织中产生 124 个注释。其中,一些注释存在于多个组织中(图 2B)。


image.png
image.png

跨组织折叠导致 54 个不同的细胞类型注释,它们以 1:1 的比例映射到我们的 sci-RNA-seq 数据集中的“主要细胞类型”注释(如果我们包括低置信度标签和 1:2 映射,则为 59 个)(图 2 2B)。在此分辨率水平下,在 sci-ATAC-seq 数据中未发现的许多 sci-RNA-seq 细胞类型是小簇,由于此处分析的细胞数量较少,可能未充分采样而无法检测到[约 400 万个 RNA (16) 与约 800,000 个 ATAC 高质量细胞](图 S3B)。

然而,仍然完全未注释的 9 个 sci-ATAC-seq 簇中的大多数似乎是由于未过滤的双峰(双细胞),因为它们的特征是多个标记基因的可访问性 总而言之,我们能够注释 172 个簇中的 150 个 (87%) , 或者 163 of 172 (95%) 如果我们包括低置信度标签。

一些簇在同一组织内收到相同的注释并被合并,从而在所有组织中产生 124 个注释。其中,一些注释存在于多个组织中(图 2B)。跨组织折叠导致 54 个不同的细胞类型注释,它们以 1:1 的比例映射到我们的 sci-RNA-seq 数据集中的“主要细胞类型”注释(如果我们包含低置信度标签和 1:2 映射,则为 59 个)(图 2 2B)。

在此分辨率水平下,在 sci-ATAC-seq 数据中未发现的许多 sci-RNA-seq 细胞类型是小簇,由于此处分析的细胞数量较少,可能未充分采样而无法检测到[约 400 万个 RNA (16) 与约 800,000 个 ATAC 高质量细胞](图 S3B)。

然而,仍然完全未注释的 9 个 sci-ATAC-seq 簇中的大多数似乎是由于未过滤的双联体,因为它们的特征在于多个标记基因的可访问性。

ATAC-seq 数据的性质允许根据 Y 染色体读数对细胞进行性别鉴定。 特别是在胎盘中,我们发现了三种细胞类型——PAEP+、MECOM+ 和 IGFBP+、DKK+ 细胞(在 RNA 数据中最初都没有注释,尽管标签很容易在 ATAC 数据中提升到集群),以及胎盘淋巴细胞 — 在来自男性胎儿的组织中,Y 染色体衍生读数的比例显着降低(图 S3C)。

与已知的 PAEP(糖皮质激素)和 IGFBP1 一致,这些细胞类型可能分别对应于母源性子宫内膜上皮细胞和蜕膜化基质细胞 (27)。 这通过用 sooorcell (28) 的基因型推断得到证实,它另外确定了一个可能来自母体的胎盘髓样细胞亚群(图 S3D)。

Identifying cell type–specific TFs:
识别细胞类型特异性的TFs:
接下来,我们试图整合和比较所有 15 个器官细胞类型的染色质可及性。 为了减轻每个器官和/或细胞类型的细胞数量总差异的影响,我们随机采样了每个器官每个细胞类型的 800 个细胞(包括未注释的簇;在给定细胞类型少于 800 个细胞的情况下) 在给定的器官中,采集了所有细胞),然后我们进行了 UMAP 可视化(图 3A)。


image.png

令人欣慰的是,在多个器官中代表的细胞类型聚集在一起——例如,基质细胞(9 个器官)、内皮细胞(13 个器官)、淋巴细胞(7 个器官)和骨髓细胞(10 个器官)——而不是按批次或单个( 图 S4)。 发育和功能相关的细胞类型也共定位,例如不同的血细胞、分泌细胞、外周神经系统神经元和中枢神经系统神经元。

发育生物学的一个核心问题是哪些 TF 参与了从不变基因组生成和维持细胞类型的多样性。 我们试图利用这些数据来系统地评估哪些 TF 基序具有差异性,从而在体内人类发育的背景下指定细胞命运规范和/或维持的关键调节因子。 差异基序可及性不是 TF 结合的证据,因此需要进一步的实验验证来确认以下观察结果(识别到了motif,并不意味着一定有TF binding)。

作为第一种方法,我们使用线性回归模型来询问在每个细胞的可访问位点中发现的哪些 TF 基序最能解释其细胞类型从属关系。 最初独立处理每个组织,我们从 JASPAR 数据库中为所有组织的 124 个细胞类型簇中的每一个确定了最丰富的基序和 TF,这揭示了已知和可能以前未知的调节因子(图 S5)。

例如,在胎盘中,SPI1/PU.1 的基序是骨髓谱系发育的既定调节因子 (29),在骨髓细胞的峰值中高度富集; 基质祖细胞 (30) 形成所需的 TWIST-1 基序富含基质细胞峰; 并且 FOS::JUN 基序与绒毛外滋养层细胞的染色质可及性相关,在这种细胞类型中,相应的 AP1 复合物被描述为特别活跃。

胎盘内未注释的簇富含 GATA1::TAL1 基序,这些基序是红细胞生成的既定调节因子 (33)。 这些细胞与来自全局 UMAP 中其他组织的成红细胞聚集在一起(图 3A 和图 S6A),经过进一步检查,关键的红细胞标记基因表现出特定的启动子可及性(图 S6B)。 在 NNLS 指导的工作流程中,这个簇没有被注释,因为在 sci-RNA-seq 研究中没有在胎盘中检测到成红细胞簇[可能是因为胎盘是少数组织之一,我们的 ATAC 细胞数超过 RNA 数据 (16)]。 因此,如果细胞类型的关键调节因子是已知的,基序富集可以帮助细胞类型注释。


image.png

我们对在所有组织中观察到的 54 种主要细胞类型重复了这种回归分析,在折叠出现在多个组织中的细胞类型之后(图 3B 和数据文件 S3;descartes.brotmanbaty.org)(15)。 正如预期的那样,顶部基序与组织特异性分析和文献保持一致——例如,骨髓细胞中的 SPI1/PU.1 (29)、视网膜色素和光感受器细胞中的 CRX (34)、心肌细胞中的 MEF2B 和 骨骼肌细胞 (35) 和心内膜和平滑肌细胞中的 SRF (36)。


image.png

大多数基序仅富含一种或两种细胞类型,而神经元 TF 基序(37-39)富含多种神经元细胞类型(图 3B,左上簇)。 基序的细胞类型特异性的另一个例外是 HNF1B,它通常与肾脏和胰腺发育相关 (40, 41) 并且其基序富含 13 种细胞类型,跨越一系列专门的上皮和分泌作用。

POU2F1((POU class 2 homeobox 1)是 TF 的一个例子,它以前没有与特定的发育分支相关联,而是被认为是 POU 家族中的一个例外——广泛表达并且没有控制特定的轨迹(42 )。 相比之下,我们发现在发育中的人体组织时,其基序富含几种神经元细胞类型。 进一步支持,POU2F1 在这些相同的细胞类型中表达更高(图 S6C)。

扩展这一观察,我们试图利用基因表达图谱 (16) 来更广泛地询问 TF 是否以与其基序的差异可及性一致的模式差异表达。例如,查看两个数据集中同一组织中注释的所有细胞类型,髓样先驱因子 SPI1/PU.1 的表达与其在可访问位点的基序富集呈强正相关(图 3C,左)。

该分析还揭示了 TF 在其表达和基序富集之间呈负相关(表 S2)。仔细观察后,这些 TF 往往是阻遏物。例如,GFI1B 已被描述为通过在结合其基序时募集组蛋白脱乙酰酶并诱导染色质闭合(例如在胚胎血红蛋白基因座处)而充当对成红细胞和巨核细胞发育至关重要的阻遏物(43)。与此一致,我们观察到它的表达与其在可访问位点的基序富集负相关(图 3C,右)


image.png
上一篇下一篇

猜你喜欢

热点阅读