Droplet scRNA-seq is not zero in

2020-05-20 本文已影响0人 RachaelRiggs

http://www.nxn.se/valent/2017/11/16/droplet-scrna-seq-is-not-zero-inflated

随着scRNA-seq（单细胞RNA测序）开始流行，用户对基因表达中意外出现的零值（zero inflated）表示担忧。也就是说，对于任何给定的基因，许多细胞都没有检测到这种表达，即使它在其他细胞中相对较高。

目前尚不清楚这一点最初是什么时候提出的，但它被称为“dropout”问题。在Google Scholar上搜索，将得到数百篇讨论scRNA-seq中“dropout”问题的paper，还有几篇论文明确提出了调查和处理“dropout”问题的方法。典型的方法是将零归为正值，或者说明包含zero-inflation成分的模型。在数据中观察到的这些零（“缺失”）zeros ("dropouts") 通常被解释为分子反应的低效性nefficiencies of molecular reactions，因为单个细胞中的mRNA体积非常小。

在高通量的scRNA序列分析中，细胞被分离成（反向）液滴(reverse) droplets，在液滴中发生若干分子反应，最终从每个细胞的表达基因中产生标记cDNA。

使这成为可能的部分原因是将测序片段限制为每个转录本3‘或5’端的单个标签。最近在统计分析中观察到，在没有额外的零膨胀的情况下，更好地解释了scRNA-seq数据的RNA标签计数版本。（没懂）

然而，从 droplet based scRNA-seq分析人员那里常常听到抱怨，因为既昂贵又缺失了部分基因RNA数据，通量较低。

这些观察到的 zero-inflation 与计数统计数据一致，并且由于 technical artifacts ，droplet scRNA-seq 产生的“缺失”数量并没有比想象的高。

将RNA溶液均匀地分散在液滴中，以确保完全没有biological variation。一种是使用inDrop (Klein et al) 进行的，一种是使用10X Genomics GemCode (Zheng et al), 进行的，另一种是10X Genomics Chromium (Svensson et al) 进行的。所有数据集都具有大约1,000个带有RNA的液滴，便于准确估算例如每个基因的均值或方差。

已经观察到，来自这些技术的表达计数遵循负二项式分布，其中存在 quadratic mean-variance relationship。

在负二项式数据中，在给定平均值μ和phi的情况下，观察到k个计数的概率为，

所以k = 0的时，随着single cell数量的增多，这些零（“缺失”）zeros ("dropouts")的概率曲线如下图

Droplet scRNA-seq is not zero in

猜你喜欢

热点阅读