Droplet scRNA-seq is not zero in

2020-05-20  本文已影响0人  RachaelRiggs

http://www.nxn.se/valent/2017/11/16/droplet-scrna-seq-is-not-zero-inflated

随着scRNA-seq(单细胞RNA测序)开始流行,用户对基因表达中意外出现的零值(zero inflated)表示担忧。也就是说,对于任何给定的基因,许多细胞都没有检测到这种表达,即使它在其他细胞中相对较高。

目前尚不清楚这一点最初是什么时候提出的,但它被称为“dropout”问题。在Google Scholar上搜索,将得到数百篇讨论scRNA-seq中“dropout”问题的paper,还有几篇论文明确提出了调查和处理“dropout”问题的方法。典型的方法是将零归为正值,或者说明包含zero-inflation成分的模型。在数据中观察到的这些零(“缺失”)zeros ("dropouts") 通常被解释为分子反应的低效性nefficiencies of molecular reactions,因为单个细胞中的mRNA体积非常小。

在高通量的scRNA序列分析中,细胞被分离成(反向)液滴(reverse) droplets,在液滴中发生若干分子反应,最终从每个细胞的表达基因中产生标记cDNA。

使这成为可能的部分原因是将测序片段限制为每个转录本3‘或5’端的单个标签。 最近在统计分析中观察到,在没有额外的零膨胀的情况下,更好地解释了scRNA-seq数据的RNA标签计数版本。(没懂)

然而,从 droplet based scRNA-seq分析人员那里常常听到抱怨,因为既昂贵又缺失了部分基因RNA数据,通量较低。

这些观察到的 zero-inflation 与计数统计数据一致,并且由于 technical artifacts ,droplet scRNA-seq 产生的“缺失”数量并没有比想象的高。

将RNA溶液均匀地分散在液滴中,以确保完全没有biological variation。 一种是使用inDrop (Klein et al) 进行的,一种是使用10X Genomics GemCode (Zheng et al), 进行的,另一种是10X Genomics Chromium (Svensson et al) 进行的。所有数据集都具有大约1,000个带有RNA的液滴,便于准确估算 例如每个基因的均值或方差。

已经观察到,来自这些技术的表达计数遵循负二项式分布,其中存在 quadratic mean-variance relationship。

1

在负二项式数据中,在给定平均值μ和phi的情况下,观察到k个计数的概率为,

2

所以k = 0的时,随着single cell数量的增多,这些零(“缺失”)zeros ("dropouts")的概率曲线如下图

3 4 5
上一篇下一篇

猜你喜欢

热点阅读