sc-RNA-seq | dropout 的由来以及处理办法
dropout 与数量生态学中的双零问题十分相似
Zero can arise in two ways:
-
the gene was not expressing any RNA (referred to as structural zeros) or
-
the RNA in the cell was not detected due to limitations of current experimental protocols (referred to as dropouts)
cell-gene矩阵中的零可能真的是未表达的也可能是由于一些原因未检测到,就是零有两种可能,而不同的解释对结果是有影响的。
一般的处理思路有俩:
- 降维:通过特征提取或者特征选择(选择一部分数据)
- 插补:根据概率模型填补Zero (其实是把零值作为缺失值来考虑)
提出问题的人在某种程度上有责任提出解决办法,或者建议。所以开发了R包,由于只能做聚类就显得有些小众了。
用于单细胞RNA-seq(scRNA-seq)数据的大多数现有降维和聚类包通过heavy modeling和computational machinery 来处理dropouts.
CIDR,一种隐式的插补方法(imputation),减轻scRNA-seq数据中dropout的影响。
CIDR改进了标准主成分分析,并且在聚类精度方面优于最先进的方法,即t-SNE,ZIFA和RaceID。
CIDR通常在几秒钟内完成处理数百个cell的数据集,几分钟内完成处理数千个cell的数据集。
Missing data and technical variability in single-cell RNA-sequencing experiments
github|CIDR
CIDR: Ultrafast and accurate clustering through imputation for single-cell RNA-seq data