单细胞RNA系列专题之一:单细胞RNA测序中质控之重要细节 (上
作者:赵玥
审稿:童蒙
编辑:angelica
引言
单细胞RNA测序是目前的一大热门。通过单细胞RNA测序,能够带给我们原来 bulk RNA (群体RNA)测序所得不到的信息,对于研究发育生物学、肿瘤生物学、免疫等有着极其重要的价值。单细胞测序的核心就是T-sne降维,以及聚类。那么在做这些工作之前的质控,会影响到整个分析的成败。这篇文章我就来给大家讲讲单细胞质控的那些事儿。
1.transcriptional bursting
首先,我们介绍转录表达中的一个现象:transcriptional bursting。什么叫做trancriptional bursting? 如下图:
我们都知道,基因的转录和表达是有周期性的。当基因的转录被激活时,mRNA的水平会突然上升,然后慢慢下降,而相应的蛋白水平的变化会有一定的滞后。
这种周期的频率,以及每次波动的大小,在RNA分析中都会影响最终的表达量(可以是FPKM值、RPKM值)。这种周期性的转录现象,就是同transcriptional bursting有关。
我们在分析RNA表达量的时候,会发现这样一个现象,很多重要转录调控因子的FPKM值往往比较低。推测可能他们只在某一特定的时间段在特定的细胞中表达。
2.数据偏好性的原因
2.1.在bulk RNA 测序过程中存在着偏好性问题:
-
提取带来的偏好性
在分离细胞并提取RNA的过程中,由于细胞类型以及细胞状态等问题,我们可能往往提取到的细胞就存在一定的偏好性。 -
反转录带来的偏好性
在随后地反转录的过程中,反转录酶会“随机”地反转录其中40%左右的RNA,因此又会出现一定的偏好性。然而,这个随机可能具有一定的偏好性。 -
PCR带来的偏好性
最后就是大家经常讲的PCR偏好性。在做PCR扩增的过程中,由于mRNA的长度,GC含量,RNA二级结构等因素,导致在相同的PCR cycle下,不同的mRNA 的扩增拷贝数不同。
最终,我们拿到的结果可能就与实际情况出入很大,如下图所示。
2.2. 单细胞RNA测序中存在的偏好性
- 扩增的偏好性
- Drop-out rates: 有部分高表达的mRNA 无法被扩增出来
- Transcriptional bursting
- 背景噪音
- 细胞周期与细胞大小造成的偏好性
- 批次效应:对同一个样品进行技术重复后,进行相关性分析
3.单细胞实验整体流程里的质控点
我们来看看单细胞实验的整体流程如下图,分析一下哪些环节会带来偏好性,以及如何发现和质控 。
3.1细胞分离时应注意的问题
我们在做单细胞测序的时候,首先要做细胞分离。细胞分离必须要在短时间内完成,否则会影响到细胞的状态,甚至可能导致RNA从细胞中漏出。
从组织中分离出细胞往往很困难,具体方法可以参考《Tissue Handling and Dissociation for Single-Cell RNA-Seq》这本书。这里总结一下从组织中分离出单细胞可能遇到的问题:
- 细胞分离的不彻底,存在多个细胞黏连到一起的情况
- 细胞分离的条件不适中,损害到了细胞,造成RNA降解或RNA从细胞中漏出
-
由于漏出的RNA,导致了背景信号
细胞分离过程可能会产生偏好性。例如在分离出的细胞可能只是一些特定细胞,此外在细胞分离的过程中可能就会导致基因表达的改变。因此对于聚类的结果,要进行仔细检查,以发现某一群细胞中特异表达的基因是否存在着会由细胞分离实验所引起的高表达基因。
在a图和b图中,一些高表达的基因被证明是由细胞分离的操作引起的。(van den Brink et al. Nature methods 2017)。
在细胞分离的过程中可能存在着污染。如图所示,在day3的样本中都存在着Neutrophil细胞的marker基因的表达。这有可能就是样本中存在着RNA的污染。
解决的方法就是利用空的droplets 来估计背景信号,利用软件SoupX来移除背景噪音(Young MD, BiorXiv 2018)。
3.2细胞分选方面的问题
我们在做细胞分选的过程中还会遇到如下的问题:
- 现有的单细胞测序都会遇到有些droplet/well可能是空的或者存在多个细胞
- 很多单细胞的试验方法都会对细胞大小有一定的偏好性。比如dropseq 对细胞大小有上限要求
- 对于细胞的类型也往往存在偏好性
- 分选实验持续时间过长会损害细胞,造成背景噪音
对于不同的单细胞测序的策略总结如下。因此,对于自己研究的组织应该采用什么样的单细胞策略,需要十分慎重。
另外,细胞质量比较差、亦或有很多死细胞或者细胞碎片的话,也会造成有很多droplet中存在多个细胞。如下图所示:有三个冻存样本有很高比列的droplet存在多个细胞。
在实际进行数据分析的过程中,这些droplet有可能会被单独聚为一类,也有可能会富集在两个细胞群的中间区域。
我们通过如下情况来判断是否存在douplet(含有多个细胞的液滴):
- UMI值很高
- 检查是否有细胞存在多个细胞群的特征
- 在做10X single cell RNA 时,可以预估到doublet的比例,这与细胞的多少直接相关
目前,有一系列的软件可以帮助我们筛选到doublet,例如:
- DoubletFinder
- Scrublet
- DoubletDecon
- DoubletCluster/DoubletCell in Scran
检测doublet的软件算法都非常类似,基本的原理非常简单,有下面几个步骤:
- 我们随机地把两个细胞合并,模拟出doublets
- 重新对数据进行降维并聚类
- 找出与模拟的doublets能够聚到一类的细胞,然后移除掉
3.3细胞裂解
在做单细胞测序的之前,需要对细胞进行裂解。不同的细胞组织,裂解条件也会不一样。如果裂解条件过于严格,就会影响文库制备。
3.4逆转录
- 逆转录酶的效率十分关键
- 通常情况下Drop-out率通常在60%到90%
-
两个不同文库,如果用同样方法处理同样的细胞系,drop-out率也有可能出现很大的变化
3.5扩增过程
- 任何扩增步骤都会导致偏好性
- 很多单细胞转录组测序的方法中有UMI这一指标可以帮助我们校正扩增导致的偏好性
- 全长转录组例如SmartSeq2没有UMI,因此就不能用UMI的方法校正扩增出现的偏好性
3.6文库制备与测序
Spike-in RNAs: 一组序列已知的RNA转录本。构建文库同时加入浓度已知的spike-in,其中包括:
- ERCC:92 中不同细菌,不同长度,不同GC含量的 RNA。这些分子一共分为22种不同的浓度加入
- SIRV:69种人工合成的转录本,用于模拟人类基因。主要用来验证测序结果能否检测出人类基因中的isoform
Spike-ins 的用途
1.去除技术噪音
2.检测捕获效率
3.计算RNA的起始量
4.数据的normalization
Spike-ins的问题
1.Spike-ins与内源基因还是有区别的,如在扩增偏好性方面
2.一般不用于drop-seq
sample Multiplexing(请参考以下网址) 很多时候并不好用。每个细胞的total reads依旧会有很大的区别。
https://emea.illumina.com/science/technology/next-generation-sequencing/plan-experiments/multiplex-sequencing.html
测序过程也有可能受到很多因素的影响:
1.文库复杂性太低,容易形成primer dimer
2.污染问题,请参考:
https://www.illumina.com/science/education/minimizing-index-hopping.html)
写在最后
本次的分享就到这里,相信大家对整体的实验有了一定了解。下一篇我们继续讲解质控方面的细节。