Cell-单细胞ATAC-seq绘制哺乳动物单细胞染色质调控图谱
DNA就像缠绕在一起的绳索,包装好的DNA被称为染色质,其内部组织影响基因在每个细胞中如何发挥作用。核小体是由DNA与组蛋白形成的染色质基本结构单位,实际上通过移动开启或关闭可阅读的遗传信息,核小体随时处于动态变化,这种状态被称为“染色质的可及性”。上篇文献中简要描述过Greenleaf实验室开发的ATAC-seq技术可以快速高效的绘制染色质开放性图谱。
标题:A Single-Cell Atlas of In Vivo Mammalian Chromatin Accessibility
期刊:Cell
时间:2018/08/02
这篇文章展示了如何通过单细胞的染色质调控信息来研究转录调控。从13只雄性小鼠的骨髓、大肠、心脏、肾脏、肝脏、肺、小肠、脾脏、睾丸、胸腺、全脑、小脑和前额叶皮层等多组织中采集了十万个单细胞,sciATAC-seq技术,检测出了85种特异性染色质的可及性状态,并且其中大部分都能与特定细胞类型相匹。
图表概要 作者及单位
这项开创性的工作由华盛顿大学的Jay Shendure教授(文章通讯作者)等合作团队完成,这个实验室主要开发和应用遗传学,基因组学和分子生物学的新技术和方法,研究发育生物学,功能基因组学,人类疾病的遗传基础等方向,发表了大量CNS等高水平文章。
团队部分成员
目前高通量的单细胞ATAC-seq技术主要分两种,一是在96孔板中通过split-pool-split的方法标记单细胞,可以适用于大部分实验室但是数据质量还有待提高,另一种是通过实验仪器形成单个液体来包裹单细胞进行标记, 依赖仪器但是数据质量相对较好。总的来说,单细胞数据信号噪音较高,分析需要大量统计学手段,这篇文章的一个亮点就是探索了很多新的数据分析方法,来试图解析单细胞中转录调控的问题。这篇文章用到的是第一种混合编码方式sciATAC-seq,由Jay Shendure组2015年开发,分析上也提出了对单细胞ATAC-seq数据的质控标准。利用LSI聚类,对每个cluster检测特异peak,构建单细胞信号矩阵。
实验设计框架
tSNE能够通过染色质信息将大部分不同组织来源的细胞区分开来。 细胞聚类
分析单细胞ATAC-seq数据的一个难点是怎么确定细胞的种类,文章结合浙江大学郭国骥教授发表的小鼠单细胞RNA-seq数据,尝试了基因种类分析,基因相关性打分和转移标签等几种不同的分析方法来探索这个问题。并发现这些方法都各有优劣。
KNN label
细胞类型特异的染色质开放区域信号与 Complex Sequence Grammar具有相关。
细胞类型特异motif
最后文章基于小鼠单细胞数据分析的结果推断部分人类遗传性疾病相关,受限于物种差异,以小鼠开放染色质的数据直接分析部分人类遗传性疾病可能带有一定局限性。
结合人类遗传疾病
最后附上 颉伟(清华大学生命科学学院研究员,清华-北大生命科学联合中心PI,HHMI国际学者,国家“杰青”)专家在微信公众号“BioArt”上的精彩点评:
每个人体有几十万亿的细胞,而每个细胞在功能、形态等方面都是不同的。如何研究和阐明每个细胞的功能是生物学的基本核心问题之一。单细胞RNA-seq的迅速发展大大增加了我们对已有细胞的认识以及未知新的细胞类型的发现(国内像汤富酬、郭国骥等实验室在这方面做出了杰出的贡献)。然而RNA-seq信息中通常会缺失的一个重要信息是基因组调控序列。包括增强子、启动子、绝缘子等调控序列是促成组织和发育时空特异性基因表达的重要调节因子。基于染色质的一系列表观遗传调控方法的进步为研究这些问题提供了很多新的工具。其中ATAC-seq是近年来比较常用的一个检测染色质开放性的方法,这种技术是斯坦福大学的William Greenleaf和Howard Chang实验室于2013年开发的。通常调控序列的染色质会处于比较开放的状态,很适合比较广谱的研究顺式调控序列和基因表达调控。
华盛顿大学的Jay Shendure实验室前期开发了大量的单细胞研究工具,包括single cell ATAC-seq。在这个工作就是他们通过single cell ATAC-seq来研究小鼠多种组织单细胞水平的染色质状态和基因调控的研究做出的一个尝试。 在技术上,作者采用index组合的方法,进一步提高单细胞 ATAC-seq的通量。通过该方法,作者描绘了13个小鼠组织中大约100,000个单细胞的开放染色质图谱,并且成功区分了诸多组织中的大部分细胞类群,也为相关组织的研究提供了很好的参考和借鉴。另外,作者通过单细胞 ATAC-seq的数据,鉴定了许多组织特异性的转录因子。最后,基于人与鼠的开放染色质的保守性,作者揭示了部分人类遗传病与开放染色质间的潜在关系,拓展了该研究的意义。
一个有趣的问题是能否将大量不同组织的单细胞RNA-seq和单细胞ATAC-seq整合起来进行比较研究。由于这些数据是不同的单细胞实验获得的,而每个细胞的identity在实验中都是推测出来的,而并非完全明确的,因此在技术上整合两种数据具有很大的挑战性。作者采用了一种label-transfer的方法,整合RNA-seq和ATAC-seq数据对细胞进行聚类,并将每个single cell ATAC-seq中的细胞周围的single cell RNA-seq细胞的最常见的label赋予该细胞。值得一提的是在分析中用到的single cell RNA-seq数据之一就是郭国骥实验室今年在Cell 发表的小鼠组织single cell RNA-seq的数据。这种label-transfer的分析方法具有探索性,从结果来看有合理性的部分,同时也有明显的问题,比如还缺乏其他独立实验结果的验证等。
总之,在该项研究中,作者通过 sci-ATAC-seq以及相应分析和质控方法,获得了较好的多组织单细胞层面的开放染色质信息,为组织结构,发育和分化,各组织器官的调控网络的研究提供了丰富的参考。然而,目前相关技术仍然有一些缺陷,比如相比single cell RNA-seq,single cell ATAC-seq每个细胞的coverage比较低。另外,每种或每类细胞的identity如何验证?是否有方法能够有效的在单细胞水平同时检测转录组和染色质动态调控。最后,受限于物种差异,以小鼠开放染色质的数据直接分析部分人类遗传性疾病可能带有一定局限性。相信这项研究是探索基因如何在单细胞水平实现时空表达特异性调控这一激动人心的核心生物学问题的刚刚开始。
参考材料:
https://shendure-web.gs.washington.edu/current.html
Cusanovich, D. a et al. Epigenetics. Multiplex single-cell profiling of chromatin accessibility by combinatorial cellular indexing. Science 348, 910–4 (2015).
Buenrostro, J. D. et al. Single-cell chromatin accessibility reveals principles of regulatory variation. Nature 523, 486–490 (2015).