【文献】单细胞转录组测序技术与生物信息流程综述
【文献】Single-cell RNA sequencing technologies and bioinformatics pipelines
地址: https://www.nature.com/articles/s12276-018-0071-8
带着问题读文献:
1,这篇文献讲了个啥?
2,这篇文章为什么能发表在这个杂志上?
3,作者信息:大学信息或者研究所信息?
4,自己对文章的感兴趣的地方?
5,这篇文章是什么领域或者方向?
6,这篇文章在生命科学中的位置?
7,这篇文章解决了什么问题?为什么这个问题这么重要?
请快速通读文章:
Abstract
近年来,下一代测序(NGS)技术的快速发展为复杂的生物系统提供了许多有价值的见解,从癌症基因组学到多种微生物群落。基于NGS的基因组学、转录组学和表观基因组学技术现在越来越关注单个细胞的特性。这些单细胞分析将使研究人员发现新的和潜在的意想不到的生物学发现,相对于传统的分析方法,评估群体。例如,单细胞RNA测序(scRNA-seq)可以揭示复杂而罕见的细胞群,揭示基因之间的调控关系,并跟踪不同细胞系发育的轨迹。在这篇综述中,我们将重点介绍单细胞分离和文库制备方面的技术挑战,以及用于分析scRNA-seq数据的计算分析流程。在分子和细胞生物学以及现有生物信息学工具方面的进一步技术改进将大大促进这些测序技术的基础科学和医学应用。
Introduction
将基因型映射到表现型是生物学和医学中一个长期存在的挑战,解决这个问题的一个强有力的策略是进行转录组分析。然而,尽管我们身体中的所有细胞都有几乎相同的基因型,但任何一个细胞中的转录组信息都只反映了一个基因子集的活动。此外,由于我们身体中许多不同的细胞类型都表达一个独特的转录组,传统的群体测序只能提供一个细胞群的平均表达信号。越来越多的证据进一步表明,基因表达是异质性的,即使在相似的细胞类型;这种随机表达反映了细胞的类型组成,也能触发细胞的命运决定。然而,目前,大多数转录组分析实验仍然基于一个假设,即来自给定组织的细胞是均匀的,因此,这些研究很可能忽略了重要的细胞间变异。为了更好地理解随机生物学过程,更精确地理解单个细胞中的转录组对于阐明它们在细胞功能中的作用以及理解基因表达如何促进有益或有害状态至关重要。
James Eberwine等人和Iscove及其同事率先在单个细胞水平上对整个转录组进行测序,他们分别使用体外转录的线性扩增和PCR的指数扩增来扩增单个细胞的cDNAs。这些技术最初应用于商业上可用的高密度DNA芯片,随后应用于单细胞RNA测序(scRNA-seq)。基于下一代测序平台的单细胞转录组分析的第一个描述发表于2009年,描述了细胞早期发育阶段的特征。自这项研究以来,获得全球范围内单细胞异质性的高分辨率视图的兴趣激增。至关重要的是,评估单个细胞间基因表达的差异,有可能识别出无法通过分析汇集细胞检测到的罕见群体。例如,在人群中发现和描述离群细胞的能力对于进一步理解癌症治疗中的耐药性和复发具有潜在的意义。最近,现有实验技术和生物信息学流程的重大进展也使研究人员能够在健康和疾病状态下消除高度多样化的免疫细胞群。此外,scRNA-seq在早期发育、成肌细胞分化和淋巴细胞命运测定中越来越多地被用来描述细胞谱系关系。在这篇综述中,我们将讨论各种scRNA-seq技术和计算工具的相对优缺点,并强调scRNA-seq方法的潜在应用。
Single-cell isolation techniques
单细胞分离是从单个细胞获得转录组信息的第一步。限制稀释(图1a)是一种常用的技术,其中用吸管稀释分离单个细胞。一般情况下,当稀释到每层0.5个细胞的浓度时,在孔板中只能得到约三分之一的制备孔板。由于细胞的这种统计分布,这种方法不是很有效。显微操作(图1b)是从早期胚胎或未培养的微生物中提取细胞的经典方法。和显微镜引导的毛细管吸管已被用于从悬浮液中提取单个细胞。但是,这些方法耗时长、通量低。最近,流式细胞分选(FACS,图1c)已成为分离高度纯化单细胞最常用的策略。当目标细胞表达非常低水平的标记时,FACS也是首选的方法。在这种方法中,首先用荧光单克隆抗体标记细胞,该抗体可以识别特定的表面标记并对不同的群体进行分类。另外,对于未染色的群体,也可能出现阴性选择。在这种情况下,根据预先确定的荧光参数,使用静电偏转系统将电荷施加到感兴趣的电池上,并对电池进行磁隔离。这些技术的潜在限制包括需要大的起始量(难以从少于10,000的低输入数中分离细胞)和需要针对感兴趣的蛋白的单克隆抗体。激光捕获显微解剖(图1d)利用计算机系统辅助的激光系统从固体样品中分离细胞。
微流控技术(图1e)由于其样品消耗低、分析成本低以及能够实现精确的流体控制,使得用于单细胞分离的微流控技术(图1e)得到了广泛的应用。重要的是,这种技术所需的纳米级体积大大降低了外部污染的风险。微流体最初被用于少量的生化分析,用于DNA和蛋白质的分析。然而,现在已经开发了复杂的阵列,允许单独控制阀门和开关,从而提高了它们的可伸缩性。值得注意的是,近年来微流体技术的迅速发展改变了基础科学家和临床医生的研究能力。该技术的应用包括在微流控生物反应器中对单个细菌细胞的长期分析,以及以高度并行的方式对单个细胞基因表达谱进行定量分析。
一个广泛使用的商业平台,Fluidigm C1,可以在一个芯片上为多达800个细胞提供自动单细胞裂解、RNA提取和cDNA合成。与基于管道的技术相比,该平台提供了更低的误报和更少的偏差。然而,它的主要缺点包括捕获所需的细胞数量(>1000)和被分析细胞的均匀大小限制。另一种很有前途的单细胞分离技术是基于微滴的微流体技术,它允许水滴在连续油相中进行单分散。与标准微流体室相比,该系统所需的体积更小,能够以更低的成本操作和筛选成千上万的细胞。10X Genomics公司的商用Chromium系统提供了3' 末端的高通量分析,具有很高的捕获效率。因此,这种高通量处理方法能够在充分多样化的生物空间中分析罕见的细胞类型。然而,临床样本必须谨慎处理,以建立一个适当的环境,不干扰现有的细胞特征。
例如,为了分离罕见的循环肿瘤细胞(CTCs), CellSearch(第一个临床验证的、食品和药物管理局批准的测试)开发了一个系统来枚举患者血液样本中的CTCs(图1f)。该系统使用与抗体偶联的磁铁来检测上皮来源的CTCs (CD45和EpCAM)。
image.jpega)极限稀释法分离单个细胞,利用稀释细胞的统计分布。b)微操作包括使用显微镜引导的毛细管吸管收集单个细胞。c) FACS通过荧光标记蛋白标记细胞分离高度纯化的单细胞。d)激光捕获显微解剖(LCM)利用计算机系统辅助的激光系统从固体样品中分离细胞。e)用于单细胞分离的微流体技术需要纳米级的体积。一个内部基于微滴的微流体的例子(例如,Drop-Seq)。f)细胞搜索系统使用与CTC结合抗体偶联的磁铁从患者血液样本中枚举CTCs。g)基于drop的库生成的示意图示例。scna -seq的文库通常是通过细胞裂解、逆转录成第一链cDNA(使用独特的条形码珠子)、第二链合成和cDNA扩增生成的
Comparative analysis for scRNA-seq library preparation
构建scRNA-seq文库的常见步骤包括细胞裂解、逆转录成第一链cDNA、第二链合成和cDNA扩增。一般情况下,细胞在低渗透压的buffer中裂解,poly(A)+选择使用poly(dT)引物捕获mRNA(图1g)。已经确定,由于采样符合泊松分布,只有10%-20%的转录本将在这个阶段逆转录。这种低mRNA捕获效率是现存scRNA-seq protocols中仍然存在的一个重要挑战,需要一种高效的细胞裂解策略。
对于cDNA的制备,一种具有低RNase H活性和高热稳定性的工程版莫罗尼小鼠白血病病毒逆转录酶通常用于第一链合成。第二链可以使用poly(A)尾矿或template-switching(36,37)生成。与前者相比,后一种方法确保了统一的覆盖范围,而不会丢失strand-specific。然后用常规PCR或体外转录进一步扩增少量合成的cDNAs。体外转录方法可以线性扩增模板,但耗时较长,因为它需要额外的逆转录,这可能导致3'覆盖偏差。Smart-seq2 (Smart-seq的改进版本)生成全长的转录本,因此适合于使用单核苷酸多态性发现选择性剪接事件和等位基因特异性表达。目前,Illumina平台被广泛应用于测序步骤(如HiSeq4000和NextSeq500)。特别是,MiSeq测序仪提供了快速的周转时间,一天可以产生约3000万PE reads。
深入的转录组分析需要对大量细胞进行分析。为了应对相关的测序成本,以前的方法只关注转录的5'或3'末端。最近,研究人员在逆转录步骤中加入了独特的分子标识符(UMIs)或条形码(随机的48bp序列)。考虑到单个细胞中存在10^5 -10^6个mRNA分子,> 10000个表达基因,至少需要4-bp UMIs(区分4^4 = 256个分子)。利用该策略,可以有效去除PCR bise,提高检测的准确性,从而将每个读序列分配到原始细胞。这些条形码方法利用分子计数,并显示出比使用基于序列读取的术语(如RPKM/FPKM(每千碱基每百万映射读取读取/片段))间接量化分子更好的重现性。然而,目前基于UMI标记的方法序列要么位于转录本的5' 端,要么位于转录本的3' 端,因此不适合用于等位基因特异性表达或异构体的使用。表1给出了典型的scRNA-seq建库方法的比较。
image.pngComputational challenges in scRNA-seq
尽管许多实验室越来越容易使用scRNA-seq的实验方法,但处理原始数据文件的计算流程仍然有限。一些商业公司提供软件工具,如10×Genomics和Fluidigm,但这一领域仍处于起步阶段,金标准的工具尚未开发。在下面的几节中,我们将讨论当前用于分析scRNA-seq数据的生物信息学工具。
Pre-processing the data
一旦从scRNA-seq实验中获得read数据,就进行质量控制(QC)。在现有的QC工具中,FastQC是一种流行的工具,用于检查整个读取过程中的质量分布。低质量的碱基(通常在3'端)和接头序列(adapter)可以在这个预处理步骤中删除。比对(Read alignment)是scRNA-seq分析的下一步,此过程中可用的工具,包括Burrows-Wheeler Aligner (BWA)和STAR,与在bulk RNA-seq分析流程中使用的工具相同。在实现UMIs时,应该先将umi 截掉。RNA-seQC程序提供比对后的摘要统计信息,例如唯一比对的read、比对到注释的外显子区域以及与特定文库的覆盖覆盖度等。当添加已知数量和序列的转录本(外部spikein)进行校准和QC时,内源性RNA与spikein的低比对比将表明,RNA降解或细胞裂解效率低下导致的文库质量较低。图2描述了单细胞分析流程的示意图。
图:
image.jpeg
scRNA-seq数据具有固有的噪声和混杂因素,如技术和生物变量。测序后,进行比对和去重,以量化一个初始基因表达谱矩阵。接下来,使用各种统计方法对原始表达式数据进行归一化。当使用spikein时,通过检查比对率来丢弃低质量的细胞,可以进一步QC。最后,通过单元格聚类对归一化矩阵进行主分析,识别子类型。根据这些数据可以推断出细胞的运动轨迹
比对后,使用一般转录本格式的转录注释将读序列分配给外显子、内含子或基因间特征。只有读到高作图质量的外显子位点的图谱,才能考虑生成基因表达矩阵(N(细胞) x m(基因)。scRNA-seq数据的一个显著特征是由于信号丢失或短暂的基因表达等原因导致的计数为零。为了解释这个特性,必须执行标准化;为了消除可能影响下游应用的细胞特异性偏差(例如,差异基因表达的测定),标准化是必要的。
每个细胞中一个基因的read数预计与基因特异性表达水平和细胞特异性标度因子(随机)成正比。这些讨厌的变量,包括捕获和逆转录效率以及细胞内在因素,通常很难估计,因此通常被modeled(认为是)为固定因素。虽然讨厌的变量可以与表达量一起估算均一化,但只适合于特定的统计模型,而且该过程需要计算。在实践中,假设大多数基因没有差异表达,原始表达计数通过标准化细胞间的比例因子估计来标准化。最常用的方法包括RPKM、FPKM和每千碱基百万(TPM)的转录本(图3a, b)。例如,RPKM计算为(外显子读10^9)/(exon length * total mapped read)。RPKM和FPKM之间的唯一区别是,FPKM考虑的是如果是PE read比对,那么read count的计算是指一个比对mates。TPM是RPKM的一个修改,其中每个样本中所有TPMs的总和在样本之间是一致的( exonic read×mean read length×106/exon length×total transcript)。这种方法比基于PKM/ fpkm的估计更容易比较每个基因的mapped reads,因为在TPM中,每个样本的归一化read 之和是相同的(图3c)【 This approach makes comparisons of mapped reads for each gene easier than PKM/FPKM-based estimates because the sum of normalized reads in each sample is the same in TPM】。然而,当检测差异表达基因时,这些基于文库大小的标准化方法可能还不够好。考虑到这种情况,当两个基因在两个条件(A和B)中表达。在条件A下,这两个基因表达相同,而在条件B中, B基因表达双倍高于基因A .如果我们把这个绝对表达式转换成相对表达式,有人就可以得出这样的结论:基因A差异表达了,虽然这种影响只是其与基因B的比较(图3 d)。正如以前所观察到的,如果一组特定的mRNA在一种情况下高表达,而在另一种情况下没有高表达,那么可能会错误地认为无差异基因识别为始终如一地下调。
图3:
image.jpega)每千碱基读(RPK)的定义是将一个isoform (i)的读计数乘以1000,再除以isoform长度。每千碱基每百万读数(RPKM)的定义是为了比较实验或不同的样本(细胞),以便将总片段数的额外标准化集成到分母项中,分母项以百万为单位表示。
b)TPM考虑了其他亚型,与RPKM形成对比。这一指标量化了丰富的异构体(i)使用RPK分数跨异构体。
c)一个示意图示例说明了RPKM和TPM措施之间的区别。TPM对于测量相对丰度是有效的,因为在不同的单元中,总的归一化读取是恒定的。
d)然而,我们应该小心地解释这样一个事实:由于其他亚型的过度表达,差异表达的基因可能被错误地标注
为了克服样本内归一化方法中固有的问题,提出了多种方法。样本间归一化最常用的两种方法是TMM(The trimmed mean of M-value)方法和DESeq方法。这些框架背后的基本思想是,高度可变的基因控制着read count,从而扭曲了表达谱中的相对丰度( thus skewing the relative abundance in expression profiles)。首先,TMM选取参考样本,其他样本作为测试样本。每个基因的m值计算为测试与参考样本之间的基因对数表达比。然后,剔除m值极值的基因后,对每个测试样本设置这些m值的加权平均值。与TMM相似,DESeq将比例因子计算为特定样本中每个基因s的读计数与所有样本的几何平均值之比的中位数。然而,当存在大量的零计数时,这两种方法(TMM和DESeq)的性能都很差。为了避免随机零计数,提出了一种基于汇聚表达值55的归一化方法,该方法对数据中差异表达基因具有较强的鲁棒性。高变异基因的选择对归一化方法很敏感,因此影响了数据异质性的分析,因为大多数研究在聚类分析之前使用高变异基因来降低维度。将样本内和样本间归一化方法结合起来的潜力很大程度上尚未探索,而且仍然是一个需要严格测试的活跃研究领域。
归一化后,下一步是估计混杂因素。我们知道观察到的读计数受多种因素的影响,包括生物变量和技术噪声(图4)。关键是,scRNA-seq中使用的少量起始材料可能会放大技术噪声的影响。使用spikein可以有效地抑制这种放大,例如Ambion的ERCC spikein组合,但是一些droplet-based 的应用不能很容易地纳入这个系统。与传统的RNA-seq不同,传统的bulk RNA-seq是在多种条件下比较差异表达的基因,而在scRNA-seq实验中,来自一种条件的细胞通常被捕获并测序(图4a)。因此,批次效应,即与任何生物变异无关的、由样品制备条件引起的系统差异,往往是显著的。对一个条件下的多个细胞进行重复分析将有助于评估由于批次效应而产生的技术可变性;然而,这种方法需要额外的成本和劳动力。此外,除了技术噪音,生物变量(如状态、周期、大小和凋亡)也可能影响基因表达谱。最近,为了解决这个问题,开发了scLVM方法,并被证明对消除由潜在变量解释的变化是有用的。这种方法被应用于T细胞分化,以发现未知的亚群,并使识别对TH2细胞分化至关重要的相关基因成为可能,否则,当存在细胞周期协变量时,这是不可能的(图4b)。对已知和未知变量的管理也可以使用包含随机噪声的线性组合的复杂统计模型(图4c)来处理。
图:
image.jpeg
a) 在scRNA-seq中,当实验(条件)在不同的板(环境)中进行时,技术间歇效应是一个众所周知的问题。在归一化步骤中,必须考虑细胞特异性的标度因子,如捕获和RT效率、dropout/扩增偏差、稀释因子和测序量。
b) 单细胞潜在变量模型(scLVM)能有效去除细胞周期效应解释的变异。在使用PCA(参考文献58的可视化)校正的scvm表达数据中,这种清晰的分离丢失了。
c) 表达式值y可以用噪声矩阵表示为r个技术和生物因素与k个潜在因素的线性组合
Cell type identification
对人体中众多细胞的鉴定是一项艰巨的任务。正如Kacser和Waddington在他对细胞可塑性的比喻中指出的那样,细胞具有巨大的潜在状态,它们可以在发育过程和疾病进展中采用这些状态。然而,对于任何特定的细胞类型,几乎没有可靠的标记存在,即使有成熟的标记(如免疫细胞中的分化簇(CD)标记),隐藏的多样性仍然存在。在scRNA-seq实验中,为了避免维数的诅咒,通常在读取计数归一化后进行降维。主成分分析(PCA)是一种广泛应用的无监督线性降维方法。通过将细胞投影到二维空间中,我们可以很容易地可视化样本,提高了解释能力(图5)。此外,还可以利用其他非线性降维方法,如t-distributed random neighbor embedded (t-SNE)60、多维尺度、局部线性嵌入(local linear embedded, LLE)和Isomap。t-SNE在流行的Cell Ranger pipeline(10 Genomics)和Seurat的R包中实现。尽管LLE和Isomap对微阵列data显示出优越的性能,但是这些方法应该在scRNA-seq数据集上进一步的评估。我们进一步警告说,降维可能导致重要的生物学信息的丢失。
image.jpeg细胞生活在与周围环境相互作用的动态context中。PCA可用于识别已知和未知的细胞簇。正常基因表达谱二维投影后可进行细胞层次重建。解码调控网络融合了伪时间推断轨迹和二维空间聚类基因表达信息
聚类是另一种检测低质量细胞的有效方法,方法是通过特异性地识别富含线粒体(mt)基因的聚类。该方法基于一项研究,该研究表明,当细胞膜破裂时,mtDNA基因上调,细胞质RNA丢失。一旦划分完成,下一步就是识别不同簇间差异表达的标记基因。计数数据最简单的统计模型是泊松模型,它只使用一个参数(方差=平均值)。然而,对于单细胞数据中的各种噪声源,使用负二项模型(方差=均值+离散度X均值的平方;对于大多数基因,离散度是>0)。另一种选择是,误差模型可以用来解释技术噪音(例如,dropout)。单细胞差异表达分析平台使用了两个概率过程的混合物:一个用于适当放大并与其丰度相关的转录本,另一个用于未放大或检测到的转录本。值得注意的是,尽管混合模型比单峰模型具有优势,但是异构细胞分布常常产生双峰分布。
Inferring regulatory networks
推断监管网络
基因调控网络(GRNs)的阐明可以增强我们对活细胞复杂细胞过程的理解,这些网络通常揭示基因和蛋白质之间的调控相互作用(图5)。值得注意的是,GRN的测定并不是生物学研究的最终结果,而是连接基因型和表型的中间桥梁。以前,基于微阵列的批量RNA-seq被用来揭示这些网络,尽管最近scna -seq被用于这一目的。单细胞基因组学使推断GRNs变得更容易,因为典型的实验允许在一种条件下捕获数千个细胞,这增加了统计能力。然而,由于细胞内的异质性和大量的基因相互作用,GRN的测定仍然具有挑战性。
已经开发了许多计算算法来处理大量的基因表达数据产生的批量群体分析和揭示GRNs。这些方法可以分为基于机器学习的,基于共同表达的、基于模型的,和基于信息理论的方法。基于共表达的方法可能是识别假定关系的最简单方法,但这些方法无法对细胞系统的精确动力学建模。基于模型的推理,如贝叶斯网络,使用了许多参数,且耗时。此外,概率图形模型需要为许多基因寻找所有可能的路径,这是一个np难题。近年来,利用互信息和条件互信息的基于信息论的方法得到了广泛的应用,因为它们没有假设,可以测量基因之间的非线性关联。
从单细胞的角度来看,必须将单细胞的随机特征适当地集成到GRN模型中。如上所述,技术噪音很难与真正的生物变异性区别开来,而剩余的变异性仍然知之甚少。然而,单细胞数据的异步性以及多个细胞子类型的存在,可能提供了检测假定的调控关系所需的固有统计可变性。近年来,从单细胞数据中识别GRNs的方法得到了广泛的应用,并成功地应用于T细胞生物学中,为共表达分析数据提供了新的思路。
值得强调的是,检测调控关系应该在合理的时间尺度内是可能的,因为转录变化不会永远持续。此外,为了推断因果关系,必须通过微扰研究或时间数据来验证和细化已识别网络中基因之间的方向性。
Cell hierarchy reconstruction
细胞层次结构的重构
个体细胞不断经历动态过程,并对各种环境刺激作出反应。其中一些反应是快速的,而另一些反应可能要慢得多,并且可以在多年的过程中发生(例如,发病机制)。这一动态过程特别反映在细胞的分子结构中,包括RNA和蛋白质的含量。要研究体细胞中的基因组尺度动态过程,细胞必须使用复杂的技术来同步。然而,在单细胞系统中,细胞是不同步的,这使得捕获沿着整个轨迹的不同瞬时时间点成为可能。然后,我们可以应用算法来重建与细胞分化或细胞周期进展相关的动态细胞轨迹(表2)。
image.pngscRNA单细胞RNA测序,水肺单细胞分岔聚类,t-SNE t分布随机邻接嵌入,ICA独立分量分析,MST最小生成树,PCA主成分分析,k-NNG k近邻图
在Monocle16算法中引入了伪时间的概念,该算法测量细胞的生物进程(图5)。在这里,伪时间的概念与实时不同,因为细胞是一次性采样的。最大吝啬是推断细胞动力学的基本原理,在进化生物学中已广泛应用于系统发育树的重建。Monocle最初构建的图形中,节点表示单元格,而边缘对应于每对单元格。利用独立分量分析(ICA),根据降维后矩阵中单元间的距离计算边缘权值。然后应用最小生成树(MST)算法搜索最长的主链。这些方法的主要限制是构造的树非常复杂,因此用户必须指定k个分支才能搜索。最近提出了一个更高级的版本Monocle2;这个版本比Monocle更快、更健壮,并结合了使用反向图嵌入技术的非监督数据驱动方法。对于时间信息可用的情况,基于监督学习的方法可以更加准确。例如,使用分支分析的单细胞聚类(SCUBA)89实现了分支分析,并已被用于从多个时间点测量的基因表达谱中恢复小鼠胚胎早期发育阶段的谱系。
scna -seq还被成功地应用于在体神经遗传学中重建谱系。这种技术的一种适应性,Div-Seq,通过直接测序分离的细胞核,绕过了组织分离的需要。众所周知,酶解会破坏RNA的组成,破坏完整性,因此,如果没有这种修饰,研究复杂组织(如大脑)中的细胞是不可能的。轨迹推断的初始方法是基于线性路径的;然而,最近的工作已经整合了分支92的概念,这对于理解动态细胞系统可能是至关重要的。Lander和他的同事们最近提出了一个更加灵活的概率框架,并利用这种方法在成纤维细胞向诱导多能干细胞重新编程的过程中重建已知和未知的细胞命运图。我们希望,从细胞谱系确定或涉及到在分支点扰动调控器的实验中收集到的额外生物学见解,将对增强我们对复杂细胞系统的理解有价值。尽管本文的主要关注点是基于rna -seq的方法,但我们也注意到,细胞层次结构也可以通过proteomic94、95或表观基因组测量重建。
Potential applications and future prospects
潜在的应用前景
scna -seq正在彻底改变我们对生物学的基本理解,这项技术开辟了超越细胞状态描述研究的新研究领域。人们可以想象许多令人兴奋的医学应用可以利用这项技术。肿瘤异质性是一种常见的现象,可以发生在肿瘤内部和之间,我们希望scRNA-seq可以用于阐明未知的肿瘤特征,不能从传统的批量转录组研究中识别。例如,该技术可用于评估癌症细胞药物耐受发展过程中的转录异质性,并分析特定通路的表达谱(图6a)。通过这种方式,scna -seq可能有助于生成癌症进化的模型。此外,该技术还可以通过建立转录动力学模型来重建细胞间的克隆和系统发育关系。
图6
image.jpeg
瘤内异质性对癌症基因组学提出了挑战。scna -seq可以通过在各种上下文中根据响应性有效地标识子组来解决这个问题。b液活检提供了令人兴奋的机会,CTCs的scna -seq可以为生物标志物的表征提供新的见解。c scna -seq能从早期发育阶段推断谱系信息,并能识别新的差异标记
最近,血液中CTCs的分析预示了液体活检的黄金时代,强调了利用这种DNA作为临床诊断标记的潜力(图6b)。scna -seq可能被用于发现CTCs的编码突变和融合基因。我们进一步预测,RNA可以作为常规临床评估的一部分,在同一细胞中对基因组和转录组信息的并行测量可以阐明DNA和RNA变异的表型后果。
谱系追踪是生物学中一个长期存在的基本问题,旨在了解单细胞胚胎如何产生各种细胞类型,这些细胞类型被组织成复杂的组织和器官(图6c)。作为概念验证,加州理工学院的研究人员最近开发了一种方法,利用单个细胞中mRNA水平的序列读出来重建多个世代的谱系系统发育。scna -seq的另一个有趣的潜在应用包括鉴定参与干细胞调控网络的基因。我们现在才刚刚开始了解干细胞是如何被触发成为功能细胞的,这是了解人类健康和疾病的基本生物学过程所必需的信息。
随着测序成本的降低,在未来5年内,将有可能对100多个细胞进行常规分析。人类细胞Atlas101的目标是绘制出人体35万亿细胞的图谱,它已经开始了一些试点研究。最初的计划是对3000万到1亿个细胞中的所有RNA转录本进行测序,然后使用基因表达谱对新的细胞类型进行分类和识别。例如,预计高度多样化的免疫系统细胞的scRNA-seq将加深我们对其固有异质性的理解,特别是在淋巴细胞行为方面。布罗德研究所(Broad Institute)的一项研究进一步强调了scRNA-seq的效用,该研究揭示了18个看似相同的免疫细胞的子集,这些细胞之间的基因表达模式存在明显差异。一些新兴的scna -seq研究集中于加深我们对大脑细胞102,103的理解。从这些分析中收集的信息很可能被用来识别与神经相关疾病相关的新途径,为生物标志物的发现提供新的治疗靶点。我们展望scna -seq在生物学和生物医学研究中的未来应用,也将为各种组织和器官的生理结构功能关系提供新的见解。最终,随着标准化生物信息学流程的可用性的改善,这项工作将揭示对生物系统的新见解,并为治疗开发创造新的机会。
个人比较感兴趣的部分是分析的方法
总结一下分析方法
1,数据的预处理,fastqc看数据质量,过滤,使用bwa,STAR比对,
2,得到表达矩阵(expression matrix),使用RPKM或TPM
3,标准化(TMM,或DESeq)
4,细胞类型鉴定(聚类,PCA,t-SNE等)
5,推断监管网络(有基于机器学习的,基于共同表达的、基于模型的,和基于信息理论的方法)
6,细胞层次结构重构(Monocle2)
拓展:
2012年,有一款名为Fluidigm C1的单细胞建库仪器风靡业界,它首次将微流控技术和单细胞建库技术结合,实现了在纳升体系内完成单细胞建库,并且同时能完成96个单细胞建库。方案降低了单个细胞的建库成本,但仪器价格十分昂贵。现在来看,这款仪器寿命并不长,正在被新技术替代。
2015年出现了一个革命性的技术——基于液滴微流控的单细胞建库技术,实现了将细胞包裹在一个个很小的油包水的液滴(droplet)里面,液滴体积只有纳升级别,由于短时间内可以生产百万数量的液滴,使得单细胞建库的通量提高到了1000以上。该技术的出现使得单细胞大数据研究成为可能。与此同时,现在已经涌现了一批同等通量的单细胞技术,包括基于微孔芯片(microwell)以及组合分子标签(combinatorial indexing)的单细胞测序技术。
image.gif