单细胞 T细胞受体(TCR)测序:技术与挑战
Single Cell T Cell Receptor Sequencing: Techniques and Future Challenges
单细胞T细胞受体测序:技术与挑战
Abstract
T细胞的特性是能够识别无限范围内的自体抗原和外来抗原。这个能力是靠胸腺发育过程中通过一种基于体细胞重组的复杂分子机制实现的。该机制导致了表面抗原受体有很多种类的群体的表达,这种受体就叫做T细胞受体(TCRs)。TCRs具有细胞特异性,是T细胞的一种分子标记,在淋巴恶性肿瘤、感染性疾病、自身免疫性疾病和肿瘤免疫学等多种背景下,TCRs被广泛用于监测T细胞的克隆类型(clonality)和多样性(diversity)。在这篇综述中,我们概述了用于研究TCR指令集的策略,从基于V段识别的先锋技术,到下一代测序所引入的革命,该技术允许阿尔法链和贝塔链的高通量测序。基于单细胞的方法将分析提高到更高的复杂性,现在提供了对成对的alpha和beta链进行排序的机会。我们还讨论了新的方法,通过整合TCR跟踪和mRNA单细胞测序提供了一个有价值的工具,将抗原特异性与转录动力学联系起来,并了解T细胞可塑性的分子机制。
Introduction
人类T细胞在胸腺中由造血组织的祖细胞发育而来。在它们的发育过程中,它们获得了识别外来抗原的能力,并对许多不同的病原体提供保护。这种功能的灵活性是由高多态性表面受体的表达称为T细胞受体(TCRs)。TCR由两个不同的蛋白质链组成。绝大多数的人类T细胞表达细胞组成的α和β链而表达了TCR组成的一个小子集γ和δ链。αβ T细胞适应性免疫的关键调解人和识别抗原在协会主要组织相容性复合体(MHC)类I和II级蛋白质。γδ T细胞而不是MHC-restricted和参与先天反应组织。αβT细胞代表超过90%的总T细胞群和γδT相比更加多样化;出于这个原因,绝大多数的研究TCR的重点是αβ T细胞。
编码alpha (TCRA)和beta (TCRB)链的基因由多个不相邻的基因片段组成,包括TCRB基因的变量(V)、多样性(D)和连接(J)片段,以及TCRA基因的变量(V)和连接(J)片段。T细胞库的巨大多样性是由生殖系基因片段的随机组合(组合多样性combinatorial diversity)和已连接片段在连接位点的随机添加或删除(连接多样性junctional diversity)产生的。
image.png
Alpha和Beta链在体细胞上的V(D)J 排列。(A) TCRB和TCRA位点的基因组组织和体细胞重组。抗原库多样性是通过重组步骤来保证的,该步骤逐步重新排列T细胞受体(TCR)β链的V、D和J段,以及TCRα链的V和J段。这种变异性(组合多样性)进一步增加或删除核苷酸在连接位点(连接多样性)。(B)转录本和转录本的生产性重排(productive arrangements)。(C) TCR的结构。TCR由两个亚基TCR Alpha 和TCR Beta 组成,每个亚基分别位于一个恒定区域和一个负责抗原识别的可变区域。
由V(D)J结编码的序列称为互补决定区域3或CDR3。这个序列在α链和β链中都具有最高的可变性(variability),决定了T细胞识别MHC分子所呈现的抗原肽的能力(Figure 1B)。随后的异二聚体对alpha链和beta链进行配对,进一步增加了组合变异性,估计可能的组合总数超过10e18。T细胞库是动态的,直接反映了免疫反应的多样性:抗原呈递给一个幼稚的T细胞,事实上,与共刺激信号相关联,促使携带相同TCRs的细胞迅速克隆扩增,产生一批“效应细胞”。抗原清除后,这些细胞作为“记忆细胞”留在血液中的数量减少了。“TCR序列的特征一直具有很大的科学价值,因为它准确地描述了T细胞在多种疾病中的动态,包括恶性肿瘤、自身免疫性疾病和传染病。
1)TCR Analysis from Pioneering Techniques to Next Generation Sequencing
TCR分析从前沿技术到高通量测序技术
利用流式细胞术和针对TCRBV亚群的单克隆抗体的组合,在蛋白质水平上进行了开拓性实验,以解剖T细胞库。这种方法是定性和定量的,但受限于特定单克隆抗体的可用性,没有提供任何关于CDR3多样性的信息。第一个基于基因组的方法是基于对群体中CDR3序列长度分布的分析。这种技术被称为免疫镜或CDR3光谱分析,其基础是利用针对不同可变片段和恒定区域的特异性引物,在CDR3区域扩增TCR转录产物,从而获得PCR片段的电泳分析。免疫镜比较了单个TCRBV亚科中不同长度产物的相对频率,该亚科在多克隆群体中呈高斯分布,而在克隆富集中呈偏态分布。第一个用于在核苷酸序列水平上查询TCR指令集的分子方法是基于传统的分子克隆和Sanger测序。这种方法提供了一个更具体的TCR曲目描述,但它不足以估计巨大的TCR多样性。真正的突破免疫特性的曲目来自高度敏感的高通量测序技术的引入大规模并行测序数以百万计的DNA分子,而不是单一的克隆细胞提供一个全面的知识的安排(α,β链,或两者兼而有之)包括这段和完整的CDR3上序列。
目前的测序技术采用从基因组DNA或cDNA开始的目标富集步骤,既提高了灵敏度,又降低了测序成本。常用的富集策略包括多重PCR、RNA诱饵富集和5’RACE PCR。多重PCR策略使用一个互补于所有可能的V段的多重正向PCR引物池和一个设计在J段(如果从基因组DNA开始)或在α和β链的恒定区域(如果从cDNA开始)上的反向引物池。这两种方法都有优点和缺点。从cDNA开始的PCR富集比基因组DNA有很多优势:(a) PCR伪产物的偏倚更小,因为扩增片段不包含内含子,因此更小;(b) cDNA分析只检测有效排列的片段(“表达的”和链);(c)由于mRNA转录本比模板基因组DNA更丰富,因此它能够更容易地检测较少表达的序列。基于诱饵的富集利用RNA诱饵直接从DNA或RNA测序(RNA-seq)文库中捕获TCR序列,捕获后再进行扩增。诱饵是特定的阿尔法和贝塔转录本,通常是共轭的磁珠。这一过程需要很少的扩增周期,减少PCR相关偏差的潜力。
第三种方法是基于转录本的方法,在模板切换(template-switch)步骤之后使用5'RACE。RNA由具有末端转移酶活性的酶逆转录,该酶在cDNA的3 '端添加一段非模板dCTPs。含有聚g束的非模板开关寡核苷酸然后与非模板拉伸结合,并允许逆转录酶切换模板并继续扩展模板直到寡核苷酸的末端。模板开关寡核苷酸包含一个通用序列,所有转录本包括TCR链共享。然后,在该序列上设计的正向引物与在α和β链的恒定区域上设计的反向引物一起使用,以丰富TCR转录本扩增片段的内容,然后可以对片段进行处理,生成测序文库。
使用基因组DNA作为起始材料反而更具挑战性,因为富集通常是通过多重PCR进行的,但内含子的存在和较长片段的扩增可能会引入更多的技术偏差。此外,非生产性的重新安排也被放大和排序,使表达的曲目的分析复杂化。这一革命性的方法首次被用于描述健康个体的TCR库多样性,并迅速适应于不同病理环境(如肿瘤免疫学和自体免疫)和多种临床应用(如监测造血细胞移植)中的库分析。
由于beta链具有较高的多样性,与alpha链相比,beta链具有更大的组合潜力,因此一直是所有TCR序列研究的主要目标。此外,β链代表T细胞的一个“独特标签”:T细胞经历了一个称为“等位基因排斥”的过程,导致只产生一个有效排列的β链基因,而两个α链等位基因都可以表达。“bulk”方法的局限性在于缺乏关于α和β链配对的信息,而α和β链配对真正反映了T细胞在体内的生物学功能,只能通过单细胞分析来实现。单细胞TCR全谱分析方法主要采用两种策略:从单细胞cDNA开始直接目标扩增和测序,或从单细胞RNA-seq数据重建TCR。
2)Single Cell TCR Enrichment and Sequencing
TCR的富集及测序
第一次尝试测序单细胞TCRα和β链使用与Sanger测序或高通量测序相关的多重PCR策略。Hans和他的同事们用多重PCR方法对浸润人结肠癌的T淋巴细胞的异质性进行了分析,以丰富来自同一细胞的TCR序列和一组“表型基因”。他们还实现了一个基于pcr的单细胞条形码策略来汇集所有的扩增子,并通过NGS对它们进行排序。条形码是一种短核苷酸序列,它唯一地标记细胞转录本,并用于追踪mRNA转录本的来源。通过这种原始的方法,他们可以将TCR序列与具有不同功能的特定T细胞子集相关联。一个类似的单细胞条形码策略被用来建立高通量的方法来识别具有相同的α和βTCR序列的克隆,并应用于乳腺癌和肺癌的肿瘤浸润淋巴细胞。
上图解释:单细胞T细胞受体(TCR)测序方法综述。直接富集和测序TCR。
在图(A)中,单细胞TCR转录本通过RT反应后的多重PCR进行富集,使用一组正向引物,涵盖所有带注释的V alpha 和V beta 片段,并在α和β链的恒定区域设计反向引物。然后通过PCR添加barcode adapter,并测序。在图(B)中,细胞通过微流体乳化装置以及特定的RT和PCR试剂在油包水的droplets中捕获。在每个液滴中,单个细胞的TCR alpha 和 beta转录本都被设计在alpha和beta链的恒定区域上的RT引物特异性地逆转录。利用设计在所有α和β片段上的正向引物池和设计在恒定区域上的反向引物,依次扩增cDNA。α和β引物在其5 '端包含重叠序列,通过重叠扩展机制可以合成TCRα和β融合序列。熔融分子聚集在一起,打破乳液,并通过巢式扩增和测序进一步丰富。从单细胞“全长”RNA测序(RNA-seq)数据重建TCR。图(C) 用微流体设备分选或捕获的单细胞被裂解,总mRNA通过oligo dT启动反应逆转录。通过模板切换机制,在转录本的5 '端添加一个通用序列。这个序列与RT反应中使用的dT引物共享,然后在文库制备前用于扩增cDNA。在文库制备步骤中,利用转座酶对全长cDNA进行“标记”,然后利用转座酶插入的标记序列对cDNA进行扩增,并插入测序barcode接头(AD1和AD2)。然后对文库进行排序,使用专用的生物信息学算法(TraCer、TraPes、VDJ Puzzle)从所有转录组中提取TCR序列。采用基于乳化剂的单细胞TCR测序和RNA-seq配对。图(D) 成千上万个平行的细胞被分成水滴中的油。裂解步骤后,它们的mRNA被使用含有相同“cell barcode”的特定RT引物池逆转录,该“cell barcode”是一种独特的分子标识符(UMI),用于标记细胞转录组。每个引物的UMI都是不同的,这使得mRNA转录的数字计数和T7启动子的测序成为可能。然后通过体外转录扩增cDNA。扩增后的barcode RNA汇集在一起进行处理。然后利用扩增的RNA作为模板,对TCR序列进行富集,并根据InDrop协议生成RNA-seq文库。在RNA-seq文库制备过程中,RNA被片段化,只有3 '端转录本被测序。对于TCR富集,扩增的RNA使用一组横跨V alpha 和V beta 段的RT引物进行逆转录,然后使用“内部”V alpha 和V beta 和设计在恒定区域上的引物(primers)进行扩增。在此PCR反应中,还添加了测序barcode(AD1和AD2)。图(E) 成千上万个平行的细胞被分成油包水的液滴中(droplets)。裂解后,用oligo dT引物逆转录它们的mRNA。通过template-switch机制,在转录本的5 '端添加含有cell barcode和UMI的primer。RT反应后液滴破碎,利用设计在dT 和 switch oligonucleotides 上的external primer,将cDNAs pooled 和扩增。然后利用扩增的全长cDNA作为模板,富集TCR测序,或片段化处理,生成RNA-seq文库。TCR富集采用巢式PCR法,正向引物跨越switch oligo,反向引物设计在α和β链的恒定区域。然后将PCR产物部分片段化,加入测序接头(AD1和AD2)。
真正的突破来自于基于乳化剂的PCR技术。这些技术使用的设备可以泵入水中的油状乳剂,成千上万的单个细胞可以被捕获到液滴中,液滴与引物和PCR试剂一起工作,就像一个微型反应室。这种方法可以大幅增加并行处理的细胞数量,并能够生成具有代表性的单细胞和融合在一起的TCR基因文库。其中,细胞裂解后,在每一个液滴中释放出α和βTCR mRNA,并利用末端重叠的引物进行多重PCR逆转录扩增。在随后的反应中,重叠端退火,允许每条链的3 '端启动互补端3 '延伸。此步骤生成包含序列和序列的融合片段;融合片段在含有“阻断”引物的PCR中进一步扩增,这些引物可以防止未被扩增的片段被扩增。Turchaninova和他的同事应用这项技术来描述人类血液中的T细胞库,但是这种方法已经广泛应用于包括癌症在内的许多研究领域,最近在一个超高通量平台上重新调整,允许对数百万个细胞进行TCR配对测序。
3)TCR Reconstruction from Single Cell RNA-seq Data
单细胞RNA-seq技术的发展也为TCR分析开辟了新的前景。到目前为止,已经开发了许多不同的protocol,主要在细胞分离方法、cDNA合成和扩增以及文库制备步骤上有所不同。单细胞分离方法迅速发展在过去的几年里从手工操作到使用微流体或emulsion-based平台的高通量分离方法,这不仅提供了巨大的优势在throughput方面而且在灵敏度和准确性方面由于很小的反应量使用。所有测序方案的特点是在文库制备前的一个逆转录和扩增步骤。常用的扩增步骤不同,可通过PCR或体外转录进行扩增,分为两组:基于标记或全长cDNA测序protocol。
基于标记的策略在逆转录反应中引入“细胞条形码”,为“标记”单个细胞的整个cDNA池提供了可能。“标记策略”已经成倍地提高了通量,因为标记的cDNAs可以在扩增和库准备过程中被汇集,从而大大降低了成本和实验时间。主要缺点是,这些protocol在库制备过程中由于cDNAs片段化而失去了全长转录本的覆盖范围,并且与全长策略相比具有较低的敏感性(可检测基因的数量较少)。相反,全长策略更昂贵、更耗时(每个细胞的cDNA池被独立处理以生成单个测序库),但更敏感,可以提供更广泛的信息,包括亚型、剪接和单核苷酸多态性。利用全长方法生成的单细胞RNA-seq数据提取T细胞库和异质性信息。来自scRNA-seq数据的全长(TCR)序列的组装允许alpha和beta链序列配对(在执行“bulk”分析时不可能),并允许clonality信息与单个T细胞的整个转录组集成。这种方法也呈现非琐碎的分析问题:规范化reference-based组装方法,依赖的一致性读到“参考”体细胞基因组实际上是有偏见的重组和突变(CDR3上是特定为每个细胞)和缺乏一个完整的“参考”基因组需要从头组装为基础的生物信息学工具的发展。
所有可用的工具基本上都结合了基于引用的组装(reads与带注释的基因片段对齐)和从头组装(重建CD3区域)。最早用来重建成对TCR和β链的工具之一被称为TraCer (34)。为了验证 TraCer的性能,Stubbington和同事使用SMART-seq protocol和从小鼠脾脏分离的FluidigmC1系统(Fluidigm Corporation)生成单细胞RNA-seq数据。为了验证所识别的克隆型,他们使用了一种实验方法来丰富TCR序列,该方法使用了一种基于pcr的多路方法,从用于测序库生成的相同cDNA开始,该方法由NGS并行测序。两种策略之间的良好相关性证实了该方法的有效性。在同一篇论文中,他们将这一分析应用于沙门氏菌感染的小鼠模型,并能够监测感染后扩大的克隆型。该方法的优势在于将TCR克隆型与特定的基因表达谱相关联,该基因表达谱提供了对整个CD4+ T细胞群的详细分子描述,并在感染后监测CD4+ T细胞亚群的动态。
同样的方法也被用于分析T细胞亚群的异质性,以解决几个生物学问题,特别是与“肿瘤免疫”相关的问题。“在过去的几年里,T细胞在癌症中的作用已经被广泛研究,CD8+ T细胞和CD4+ T调节细胞被广泛描述分别在几种癌症中抑制或促进肿瘤进展。最近,郑和同事利用示踪剂对T细胞浸润性肝癌进行了解剖。他们分析了浸润的Treg和CD8+ T细胞的克隆富集,以了解肿瘤微环境中淋巴细胞募集的分子机制。通过对TCR表达谱的解剖,他们得出结论:Treg细胞在肿瘤中不存在克隆富集,提示从周围招募,而CD8+ T细胞经克隆富集,提示肿瘤内部存在克隆活化和扩增。在相同的研究思路下,陆续开发了scTCR Seq、TRAPes等工具,适用于短读单细胞RNA-Seq文库和VDJ Puzzle,可以同时分析基因表达和TCR多样性,并在抗原特异性循环CD8+ T细胞上进行了开发和验证。
4)New Technologies and Perspectives 新技术和展望
最近修改基于标签的策略的尝试有望将来自相同细胞的RNA-seq和TCR测序结合起来。这些方法具有极大的优势,可以大幅增加并行处理的细胞数量,这对于描述非常罕见的T细胞群是至关重要的。
最近发表的一篇论文研究了小鼠和人类Treg细胞的T细胞库(41)。在本文中,Zemmour和同事使用不同的单细胞RNA-seq方法分析了Treg细胞的转录表型。他们发现,Treg细胞具有广泛的异质性,某些高度活化的亚群似乎与T细胞的转录相关。他们还表明,具有相同TCR的Treg在转录上比具有不同抗原特异性的Treg更相似,这说明Treg可塑性受TCR成形的影响较大。为了分析TCR指令表,Zemmour和他的同事使用了一种基于乳化剂的InDrop协议(图2D)的修改,该协议目前用于3 ' '端计数。
其中,细胞通过微流体装置形成油包水乳状液被捕获成水滴。细胞被捕获连同裂解缓冲液,试剂,特别是条形码引物,启动RT反应。条形码cDNAs是由上千个细胞并行合成的。将不同细胞的逆转录后的cDNAs通过破碎液滴汇集在一起,利用体外转录进行线性扩增,然后制备测序文库。正如本文所述,这种池策略成倍地提高了吞吐量,因为可以将数千个单元池放在一个库中。然而,片段化步骤牺牲了所有来自mRNA 5 '端(包括CDR3区域)的信息。Zemmour和他的同事们克服了这个问题,他们在线性放大后引入了一个TCR富集步骤,这个步骤使用了一个横跨所有V和beta段的多重RT池。此步骤生成与整个转录组库共享相同条形码的TCR alpha和beta库(图2d)。最近,10x基因组公司推出了一种类似的方法,将α和β链测序结合起来,并行地对数千个单细胞进行转录组分析(图2e)。该方法采用商业化的基于乳化剂的微流控平台(Chromium 10x),可以生成用于单细胞RNA-seq文库制备和TCR目标富集和测序的扩增cDNA。通过PCR对扩增的cDNA进行TCR富集,使用设计在α和β链的恒定区域上的反向引物和设计在第二链合成过程中通过模板开关机制添加在5 '处的寡核苷酸序列上的通用正向引物。每个寡核苷酸包含一个独特的cell barcode,用于标记整个细胞转录组,包括TCR转录本。
Conclusion
T细胞受体库分析已成为了解健康个体和多种病理条件下T细胞生物学的基本工具,目前不仅应用于研究免疫介导性疾病的生物学,而且还应用于监测治疗后的免疫反应。CD3谱分型等前沿技术已被广泛用于提供克隆扩增的信息,但随着NGS技术的发展,在产量和应用方面出现了真正的革命。对成千上万个细胞的TCR进行并行测序是分析T细胞反应库复杂性和多样性的有力工具。这项技术的主要局限在于无法配对测序和测序,这削弱了我们对体内情况的理解。随着单细胞技术的快速发展和扩展,这一关键问题最近得到了解决,单细胞技术提供了配对的和单个细胞的序列信息。进一步的复杂性来自于将来自相同细胞的TCR库和基因表达谱联系起来的努力。这种分析提供了对感兴趣的种群的无偏分类,以及每个细胞的转录景观与其TCR之间的关联。这种方法有望开辟新的途径来描述免疫细胞亚群的特异性克隆性,即使是特征不明显的表型亚群也是如此,并为监测与克隆性密切相关的转录动力学效应提供了机会。