笔记 | scRNA-seq技术比较--2017年

2020-03-23 本文已影响0人尘世中一个迷途小书僮

Graphical abstract

这一篇文章系统性地比较了当时流行的6种scRNA-seq（ CEL-seq2, Drop-seq, MARS-seq, SCRB-seq, Smart-seq, and Smart-seq2）的方法，主要从sensitivity，precision，accuracy三个指标来衡量各技术的power和cost-efficiency

实验方法以及计算处理流程

scRNA-seq测序：每一个scRNA-seq都做了两个重复，用的细胞都是mESC，还加入ERCC作为外参。

由于用的都是同一种细胞（可能批次也一样），数据处理方式也基本一致。所以，后续检测到的所有差异应当都是technical variation，而非biological variation。如此就可以根据观察值的差异比较不同技术的性能。

单细胞分选

CEL-seq2，smart-seq都是用fluidigm C1进行细胞分选
Drop-seq用microdroplet的方式分选细胞
Smart-seq2，MARS-seq，SCRB-seq都是用FACS分选细胞

Processing of scRNA-seq data

将所有reads 截断至45bp
用STAR进行mapping
为了消除文库大小差异，将所有文库downsampling至1M reads
定量，对于UMI类方法使用Drop-seq pipeline进行定量。smart-seq的就是正常定量
去除低质量文库

文中提到低质量文库的鉴别标准：

transcript detection and abundance in low-quality libraries correlate poorly with high-quality libraries as well as with other low-quality libraries

文章指出对于各种scRNA-seq方法来说，1M 的测序深度足以进行技术的sensitivity、accuracy、precision分析。

Sensitivity

Sensitivity：就是对基因检测的灵敏度

对于sensitivity的评估，作者以每个细胞检出的基因数量作为衡量的标准。

其中以Smart-seq2 sensitivity最高，主要是因为全长转录本的检测也让基因检测数量增加。同时由于是用FACS分选细胞，像Drop-seq那种empty droplet的情况也会减少。因此测序产出reads的可利用率也变高了。

Accuracy

Accuracy：就是测序的准确度

前面提到，作者使用ERCC作为外参。这里作者用ERCC的观测值和其加入浓度的一致性作为accuracy的衡量标准

Smart-seq2的accuracy还是最高，但各个方法的accuracy都在0.83~0.91间，因此作者认为准确度轻微的差别不足以成为scRNA-seq方法抉择的判别标准。

Precision

Precision：即每次试验重复的差异程度，在scRNA-seq中不同批次的检测是否能较好的重复结果也是评估该测序方法的主要指标。（批次效应要较低

文中以dropout rate和amplification noise作为precision的侧面反映指标

Dropout probability

指检测到zero counts的细胞概率，反映的是cDNA生成时mRNA丢失的情况。因此dropout probability较高的话，不同批次间重复效果也会较差

Amplification noise

指cDNA 扩增时的噪声，即cDNA扩增效率不均一，一部分cDNA以指数扩增，而另一部分cDNA以非指数扩增，导致的amplification variance。这种情况在平常的PCR中也很常见，有一些DNA扩增的效率会比较高，这可能与引物结合程度，PCR体系等方面有关。

文中使用extra-poisson variability作为amplification noise的检测指标，smart-seq2只考虑reads情况下amplification noise最低。在UMI方法中，SCRB-seq较低。总体而言Smart-seq2的amplification noise 还是要比UMI-based方法的误差要大。

we calculated the coefficient of variation (CV, SD divided by the mean, including zeros), and we subtracted the expected amount of variation due to Poisson sampling (i.e., the square root of the mean divided by the mean).

至于dropout probability和amplification noise综合效应如何定量地反映precision，作者还不能给出准确的答案。

对各个scRNA-seq进行了描述性的指标检测后，作者对各技术的应用性能进行了综合评估。

Power

PowerIs Determined by a Combinationof Dropout Rates and Amplification Noise

Power（效力）: 指检测出差异表达基因的能力，这是对sensitivity和precision的综合评估

为了比较不同scRNA-seq检测DEG的power，作者模拟了两组数据，两组数据同样包含n个细胞的13,361个基因的表达量，区别在于其中一组相对于另一组的表达量(log-fold change)有5%的差异。如此模拟100次，计算到达80% TPR时所需的细胞数，并以此为Power的度量标准。

这里用模拟数据中达到80%TPR所需细胞数衡量各方法的Power，如果达到80%TPR所需细胞越少，则Power越高

Cost

文章中还计算了各方法的minimal cost，即建库和测序所需的最少花费。

最划算的应数SCRB-seq，一个细胞的建库成本在2刀左右。最贵的是Smart-seq2 而且如果没有自制的Tn5酶，还要贵7~8倍

总结

作者认为：

Drop-seq is preferable when quantifying transcriptomes of large numbers of cells with low sequencing depth
SCRB-seq and MARS-seq is preferable when quantifying transcriptomes of fewer cells
Smart-seq2 is preferable when annotating and/or quantifying transcriptomes of fewer cells as long one can use in-house-produced transposase

写在最后：

这篇文章是2017年的文章，在这几年的发展中，scRNA-seq的技术更加成熟了，而一些更成熟且商业化的技术在这篇文章中也没有进行比较。就像现在做单细胞测序的文章或者是外面的测序公司很多都用10x Genomics的，这篇文章也没有提到。总而言之，作者还是提供了许多有关于scRNA-seq测序技术的评估方法及结果，也是十分值得学习的。

完。