给免疫学家们的单细胞测序指南
近年来,单细胞测序(scRNA-seq)方法在免疫学领域的应用迅速增加。随着技术的广泛应用,用户越来越难以选择最佳的scRNA-seq方法和平台来解决他们感兴趣的生物学问题。在这里,我们比较了四种常用的scRNA-seq平台的优势和局限性,以阐明它们在不同实验应用中的适用性。我们还讨论了如何整合不同scRNA-seq平台生成的数据集,以及如何使用无偏倚生物信息学方法识别未知的单细胞群体。
Introduction
免疫系统由介导宿主抵御病原体的细胞、组织和器官网络组成,但该网络也在体内平衡活动中发挥关键作用,如组织发育和代谢。借助显微镜和流式细胞仪,免疫细胞可以很容易地根据特定的表面标记分为不同的类型。然而,并不是所有的免疫细胞类型都可以通过表型标记的单独分析来完全解决,因为许多免疫细胞类型是由多个细胞谱系表达的,或者在炎症过程中有不同的调节。基因表达研究是在大量分类或纯化的免疫细胞上进行的,试图更好地理解它们的转录组。在这个过程中,新的和独特的群体marker被识别,可以更有效地区分不同的免疫细胞。尽管如此,这种类型的分析并不考虑单个细胞之间基因表达的差异性,也不考虑具有重叠表型特征的不相关细胞类型的样本污染的影响。因此,群体内生物学上显著的异质性可以被掩盖,相关信息被污染细胞的无关信号给平均掉了。这在研究时间动态过程时尤为关键,例如,原始细胞通过多个过渡阶段发展为终末分化的群体。对存在于连续分化和活化状态的细胞进行Bulk分析的方法导致了对其独特特征的平均,并相应失去了生物学上的重要信息。
NGS的进步使得在单个细胞水平上研究免疫系统成为可能。单细胞rna测序(scRNA-seq)现在广泛应用于免疫学研究,寻求解决以前未被认识的细胞异质性,定义细胞发育和分化的关键过程,揭示造血的关键途径,
了解预测免疫功能的基因调控网络。单细胞转录组的静态快照(static snapshot)可以提供一个强大的方法,了解细胞之间很少同步的分化和激活状态的各个阶段。
低起始量的RNA-seq方法的快速发展导致了scRNA-seq protocol的激增,每个protocol都有自己的优点和局限性。因此,对于非专家来说,选择最合适的方法来解决特定的研究问题,或评估单细胞方法是否适合特定的研究都是一种挑战。在这里,我们列出了四种最常用的scRNA-seq方法,并讨论了它们在工作流程、灵敏度、数据质量和成本方面的优势和局限性(表1),从而提供了一个指南,可以帮助免疫学家为他们的scRNA-seq研究做出知情的选择。我们还演示了如何进行无偏单细胞识别,以及如何在下游分析之前整合不同scRNA-seq protocol获得的数据。
image.jpeg单细胞测序技术
自2009年第一个scRNA-seqprotocol发布以来,已经有了关于scRNA-seq方法的扩展,这些方法不同于mRNA转录本如何被放大来生成全长cDNA或在5'或3'端具有唯一分子标识符(UMI)的cDNA。例如,SMART-seq ( switching mechanism at 5′ end of RNA template sequencing)及其改进的protocol,SMART-seq2是用来生成全长cDNA的protocol,而MARS-seq( massively parallel RNA single-cell sequencing)、STRT( single-cell tagged reverse transcription)、CEL-seq( cell expression by linear amplification and sequencing),cell -seq2 , Drop-seq和inDrops(indexing droplets)是设计用于将UMIs纳入cDNA的protocol。
为了促进样品制备的自动化和简单化,其中一些protocol可以与微流体或基于液滴的平台一起使用,例如分别使用Fluidigm C1、10X Genomics的Chromium和1 CellBio的InDrop。
我们选择关注以下scRNA-seq方法/平台,即MARS-seq、SMART-seq2、Fluidigm C1和10X Genomics Chromium,因为它们已经被生物医学科学家广泛应用于各个领域。
除了作为独立的技术使用外,其中一些方法还可以与荧光激活细胞分选(FACS)相结合,后者用荧光团偶联抗体对细胞进行染色,以便于从异质悬浮液中分离。特别是,现在可以使用FACS索引排序,以分离具有已知特征的单个细胞(例如,定义的大小、粒度和选定的标记表达),并记录它们在检测板中的位置。索引排序允许回溯性地处理意外问题,因为它避免使用预定义的单元排序策略。
例如,一个罕见的细胞群的表型可能没有明确的定义,因此,在各种不同的组合中分析多个不同的标记可以帮助确定下游实验的更好的分选策略。
此外,该方法提供了重要的实验控制,特别是确定哪些细胞类型对protocol施加的方法和技术偏差最敏感的能力,例如,通过比较最初的数量和分类细胞的身份与那些通过后期质量控制的细胞。
Massively Parallel RNA Single Cell Sequencing (MARS-seq)
MARS-seq是一种自动化的scRNA-seq方法,该方法将来自目标群体的单个细胞按facs分类为384孔板,其中包含裂解缓冲液。384孔板可以在样品处理之前储存很长一段时间,这使得在时间管理方面具有很大的灵活性。这种方法不受细胞大小、形状、均匀性或总数的限制。
MARS-seq采用3'端计数mRNA测序方法,生成部分cDNA转录本(不是全长)。
这些cDNA在最初的逆转录阶段被标记为barcode和UMI,然后通过体外转录(IVT)进行聚合和扩增。UMI可以定量单个细胞内单个基因的表达水平,从而减少在扩增步骤中引入的技术变变性和偏差(这是相对于C1和SMART-seq2方法的明显优势)。
pooling策略使cDNA扩增的多路复用,这既简化了过程,也大大增加了样品的通量。目前,该方法可以检测到每个原代细胞约500-3000个基因。
Fluidigm C1 Single Cell Full Length Messenger RNA (mRNA) Sequencing
Fluidigm C1是一种自动化的微流体系统,可以捕获和处理多达96个单个细胞,在任何Illumina测序机上进行相对mRNA定量。
细胞捕获、裂解、逆转录和细胞多路复用发生在集成流控电路芯片中。目前有三种不同细胞尺寸的试剂盒(5-10、10-17和17-25 μM)可供使用,可以分析范围广泛的细胞大小,尽管输入的细胞必须具有相对均匀的大小和形状,以避免选择偏差。
计数和制备至少需要10,000个细胞,这使得该平台不适合在大块细胞样本中鉴定稀有群体。被检测的细胞也必须是新鲜的并立即处理,因此这种方法可能很难与需要长时间处理的实验相结合。此外,由于每台机器在给定的时间只能容纳一个墨盒,因此需要多台机器同时运行多个cell population /墨盒。微流体墨盒的高成本也会限制每个项目中使用的样本量。重要的是,C1系统允许在显微镜下单独观察捕获的细胞,从而允许用户在下游文库制备之前排除空孔、双体或含有细胞碎片的孔。
C1系统采用SMART-sequencing,并生成全长cDNA(不像MARS-seq和10X Genomics Chromium使用的部分转录本)。
C1技术目前能够检测每个原代细胞300-7000个基因。虽然最近引入的C1 mRNA Seq HT检测显著增加了系统通量(允许在一次运行中捕获多达800个个体细胞),但该方法使用3‘末端计数mRNA测序,因此失去了整个转录本的reads覆盖。
Switching Mechanism at 5′ End of RNA Template (SMART-seq2)
SMART-seq2 SMART-seq的改进版本(类似于Fluidigm C1),以改进反转录,模板切换和pre-amplification步骤为了增加产量和互补脱氧核糖核酸数据库生成的从每个细胞的长度(同时使用现成的试剂可用以较低的成本)。
SMART-seq2生成全长cdna,并在整个转录本上提供良好的阅读覆盖率,从而允许使用单核苷酸多态性(SNPs)检测基因的异构体或等位基因特异性表达。
然而,UMIs和条形码不能合并,因此不可能对样品进行基因水平定量或多路复用,从而增加了下游加工的复杂性。
与MARS-seq类似,目标群体中的单个细胞被分选到96孔或384孔PCR板中,预先填充裂解缓冲液(因此该方法与指数排序方法完全兼容),并且在样品处理前,该板可以保存很长时间。
同样,SMART-seq2不受细胞大小、形状、同质性或总数量的限制,因此它适用于处理非常罕见种群的实验。
与自动化的scRNA-seq方法不同,这种反应是在单个井中进行的,需要人工移液,因此更耗费时间,增加了技术的可变性。
因此,这种方法可能不是最有效的实验,需要数千个单独的细胞,尽管液体处理机器人可以用来减少移液问题(尽管大大增加了成本)。
重要的是,这种方法可以在每个原代细胞中检测到更多的基因(约4000 ~ 7000)。
10X Genomics Chromium Single Cell RNA Sequencing
10X Genomics Chromium系统采用乳液凝胶珠(GEM)方法进行基于液滴的单细胞快速封装。使用此方法,每个凝胶珠标记的寡核苷酸由一个独一无二的条形码,10 bp UMI适配器/引物测序,锚定30 bp oligo-dT(7)。这个系统允许高通量和减少需要分拣设备或涉及大量的试验板的工作流。
最多可同时处理8个不同的样品,适合需要时间过程元素或多种处理的实验。
与上述其他方法相比,单个细胞的下游处理(逆转录、cDNA扩增和文库构建)极其简单,因为所有细胞的反应可以在一个试管中一起进行(而不需要多个96孔板处理)。该平台目前能够在每个原代细胞中检测500 1500个基因。
虽然在本文讨论的方法中,10X Genomics Chromium系统是最经济、最节省时间的,但该protocol对细胞输入提供的控制很少,而且容易受到选择偏差的影响,导致对系统生物学的不准确反映。
因此,如果分析的细胞数量不足,则可能不能恰当地表示稀少的细胞群。此外,用户无法确定在下游处理和质量控制措施之前收集了哪些细胞。
这与基于facs的方法相反,在这种方法中,用户知道哪些单元格已经加载,以及它们是否通过了质量控制措施。10X Genomics Chromium系统可以通过测序(CITE-seq)与转录组和表位的细胞索引(CITE-seq)结合使用,这种方法允许对数千个单细胞进行无偏谱转录组分析的多重蛋白标记检测。
简单地说,在处理scRNA-seq之前,细胞用抗体-寡核苷酸复合物染色。
染色的单细胞被封装到纳米级大小的水滴中,溶解在水滴中,从而释放细胞mrna和抗体来源的寡聚体,这些寡聚体通过其3 poly A尾巴与含有寡聚体dt的凝胶珠结合,并在逆转录过程中被共享的细胞条形码标记(34)。
CITE-seq可用于单细胞水平的翻译后基因调控研究,甚至可用于大抗体组的大规模免疫表型研究。因此,这可能会增强细胞表型的发现和描述,特别是具有细微转录组差异的细胞群体。
Considerations for Choosing the Right Platform: Biological Pragmatism at Best!
NGS和计算方法的进步将继续使scRNA-seq在一般实验室中更有吸引力。为特定的研究选择一个合适的平台显然是至关重要的,但这高度依赖于正在处理的生物学问题的类型,并进一步受到细胞数量、信息深度、和总成本(表1)。这里的一个主要挑战是,大多数研究者将需要在进行实验之前,对他们预期的细胞异质性水平进行合理的估计。
Which Protocol Should I Use?
选择使用哪种scRNA-seqprotocol取决于研究问题的性质。
技术上,这里描述的四种方法可以分为两组:全长方法(SMART-seq2和Fluidigm C1)和基于分子标记的方法(MARS-seq和10X基因组铬)。
全长方法涵盖了整个转录组,增加了可映射reads的数量,使其适用于包括细胞类型发现、评估组织组成、等位基因表达分析,甚至异构体发现等应用。
然而,全长方法的一个主要缺点是,它们不能通过将样本池集成到一个单管来生成库,从而增加了总体成本和劳动力。
此外,不能合并UMIs以允许对转录本进行数字量化。
相反,基于分子标签的方法是基于分子的5或3端测序,因此这些可以与UMIs结合,使样品的多路复用,以提高基因表达的定量和通量。
然而,由于读取被限制在文字记录的一端,与全长方法相比,总体灵敏度降低。
尽管有这些缺点,但基于标签的方法的低成本和高通量意味着它们现在被广泛应用于基因表达水平、细胞类型发现和组织组成的研究。
因此,平台的灵敏度是一个关键的决定因素测序深度和每个细胞检测到的基因总数。
一种方法的灵敏度被定义为能够被自信地检测到的尖峰插入控制所需的输入RNA分子的最小数量。因此,高灵敏度可以检测弱表达基因。
我们发现MARS-seq、Fluidigm C1和SMART-seq2检测的中位数分别为4763、7572和9138个基因(36),这与我们在分析MARS-seq、SMART-seq2、Fluidigm C1和10X Genomics Chromium平台生成的数据时观察到的结果一致。
SMART-seq2在灵敏度方面优于其他方法,这可能是因为基于标签方法的转录本可能具有难以与基因组对齐的近端序列特征,因此具有更多可映射的reads。
How Many Cells Do I Need to Sequence?
单细胞实验的另一个关键考虑因素是发现所需的细胞数量,这反过来也取决于具体的研究目标。例如,旨在描述免疫系统或发现罕见细胞群的研究可以使用breadth-based的方法,在这种方法中,可能会对数百到数万个细胞进行测序,以提供组织组成的合理分布。这种方法已经被用于绘制多种组织,包括脾脏、大脑和肠。
Amit和同事展示的一项开创性工作是使用MARS-seq技术解剖小鼠脾脏内的细胞多样性(21)。
从1536个CD11c+单细胞中,他们确定了8个不同的转录组,分别对应于B细胞、自然杀伤细胞、巨噬细胞、单核细胞和4个不同的树突状细胞(DC)亚群。
在一项绘制小鼠大脑细胞异质性的独立研究中,使用Fluidigm C1平台对来自小鼠初级躯体感觉皮层S1区和海马CA1区的3005个单个细胞进行了测序。其中鉴定出了47种分子上不同的细胞亚类,它们与小鼠皮层中已知的主要细胞类型相对应。在这些细胞中,发现了6种不同种类的少突胶质细胞,可能代表了不同的成熟阶段。
综上所述,这些研究表明所需的细胞数量取决于群体中离散细胞状态的数量。在一个细胞状态在转录上不同且分布均匀的异质群体中,1000 - 2000个单细胞可能足以实现不同细胞状态的重新聚集。
然而,如果感兴趣的细胞在混合细胞中具有不同的转录谱,那么它可能在较少的细胞和较浅的测序深度下被揭示。随着基于液滴的技术的普及,将会有更多的低测序深度研究,检测10到100倍以上的细胞。因此,研究人员应该考虑哪种方法最适合他们的研究问题和预算。
What Are Some Potential Applications of scRNA-seq?
scRNA-seq已被用于多种免疫学研究。传统上,免疫细胞被认为是同质的,尽管一些人群可能显示功能异质性。最近的scRNA-seq研究表明,曾经被认为是明确定义的免疫群体,可能包含具有重叠表型标记的转录上不同的群体。
例如,Bjorklund等人在人类扁桃体中确定了四种不同的先天淋巴细胞(ILC)簇,它们与已知的表型特征的ILC群体相对应,即ILC1-3和自然杀伤细胞(NK)。此外,他们还发现了ILC3中三个在转录和功能上不同的亚群。类似地,Gury-BenAri等人评估了在小鼠小肠中helper-like ILC的异质性。通过结合MARS-seq与染色质免疫沉淀测序(CHIP-seq)和转座酶可达染色质测序(ATAC-seq),他们能够获得细胞的转录和调控。
总之,这些研究表明,scRNA-seq可以帮助揭示传统表型研究中可能被掩盖的细胞异质性。scRNA-seq也可以用来描述组织并帮助鉴定疾病的分子驱动因素。这些研究有助于更好地了解这种疾病的免疫反应和致病性,并为开发治疗、管理甚至治愈这种疾病的新药物铺平道路。scRNA-seq也可用于研究免疫功能,如抗原受体储备。T细胞受体的序列可以从scRNA-seq序列中组装,并根据reference进行映射。
这些应用将使人们更好地了解适应性免疫如何对免疫损伤(如感染、自身抗原或疫苗接种)作出反应,并引领治疗方法的发展。在发育背景下,Giladi等人最近解剖了小鼠骨髓中造血干细胞的分化轨迹,以单细胞分辨率跟踪它们发展到每个造血细胞系。本研究使用MARS-seq对超过60385个个体细胞的基因表达进行了分析,从而使作者能够生成一个正常小鼠骨髓造血的无偏倚参考模型。认识到这些方法的潜力,全球科学界现在已经开始使用scRNA-seq技术进行国际合作,以建立一个人体细胞图谱,绘制人体中每一种细胞类型。当完成时,这个图集将毫无疑问地推进目前对人类生理学的理解,并对生物学和医学的所有领域产生重大影响。
### A Computational Approach for Cell Type Identification of Unknown Single Cells
在scRNA-seq技术出现之前,细胞类型通常是通过一组针对预先选定的细胞表面标记物的抗体来定义的(通常是根据对相关细胞谱系的预先了解和相关抗体的普遍可用性来确定的)。
随着技术的不断进步,可以使用流式细胞术或大规模细胞术测量的每个细胞的标记物数量已从<10增加到>40。
这种大量的标记物使得对细胞异质性进行更详细的分析成为可能,但仍然远远落后于采用转录组或蛋白质组技术进行细胞类型鉴定的无偏倚方法。
事实上,scRNA-seq技术现在能够在很短的时间内测量数千个单个细胞的转录组,计算方法的快速进步使得以完全公正的方式对这些细胞进行稳健的识别成为可能。然而,生物学家在获得scRNA-seq数据后面临的主要挑战是如何将数据聚类和/或进行细胞识别。
许多不同的算法现在被用于对单细胞数据进行聚类,包括共享最近邻(SNN)、SNN- cliq、pcaReduce、通过imputation和降维聚类(CIDR)、单细胞共识聚类(SC3)、单细胞RNA-seq分析(SINCERA)、稀有细胞类型识别(RaceID)、GiniClust和单细胞潜变量模型(scLVM)。
在细胞群鉴定之后,每个细胞群中差异表达的基因被确定,然后被分配为已知/新的细胞类型(基于潜在的有偏差的血统标记的先验知识)。
Data Integration and Correction of Technical Variation
随着scRNA-seq提供的数据产量的增加,研究人员现在可以挖掘现有的数据集来执行多种不同类型的分析。然而,不同scRNA-seq平台生成的数据集通常需要在下游分析之前进行集成,并且在合并这些数据集之前必须纠正数据集之间的技术差异。当scRNA-seq应用于大量细胞时,实验通常是分批进行的,导致了显著的组间差异,从而掩盖了生物异质性。 将批信息叠加到tSNE图上显示,这些亚群对应于两个独立的试验运行。为了消除这种批处理效应,Seurat包实现了典型相关分析(CCA)算法,该算法识别第1批和第2批相关度最高的维度,并将单元投射到这些维度上。CCA归一化后,批次1和批次2中相同类型的细胞排列良好,两次试验之间细胞分离不明显。
imageConcluding Remarks
这里我们讨论了一些广泛使用的scRNA-seq平台的相对优势和局限性,以及当前分析单细胞转录组数据集的技术障碍。随着下一代测序技术和计算方法的不断改进,scRNA-seq在免疫学研究中的应用将变得更加广泛,最终甚至成为常规。 一旦完成一套完整的参考数据库或免疫图谱研究,将需要采用新的策略来进行多重单细胞图谱分析,并采用其他技术并行分析单个细胞的多个分子特征。 随着这些技术的复杂性的增加,研究人员在选择分析平台时必须谨慎地根据特定的假设和生物学问题进行指导,希望能够深入了解免疫系统在健康和疾病中的作用。