单细胞学习

【单细胞】单细胞数据的批次效应

2021-11-26  本文已影响0人  jjjscuedu

在数据分析的时候,我们的目标是一般都是找到样本之间真实的生物学差异。但是这种真实的生物学因素往往会受到各种因素影响,举几个场景:

这些因素之间有些是生物学真实的差异,有些是抽样时的随机波动。有些是系统性因素,统称为批次效应(batch effect),顾名思义,不同批次带来的效应。如果效应比较小还可以接受,如果批次效应很严重,就可能会和真实的生物学差异相混淆,让结果难以捉摸。我们需要辨别到底存在多大程度的批次效应,对我们真实的生物学样本会不会产生影响。

如下所示,这两个数据是不同时期做的同一个细胞,几乎没有交集,因此,我们分析的时候需要去除批次效应。

去除批次效应之前:

去除批次效应之后:

 

从直觉上讲,最好是分析的过程中过滤掉这种批次效应。但是即便是同一个人对同一个样本做的相同实验,也有可能因为时间差异导致批次效应,我们需要对这种数据集进行批次效应校正吗?我们对批次效应进行校正的同时也会引入新的问题,它很有可能将生物学本身的差异视为批次效应,然后将其去除。校正批次效应的目的就是:减少batch之间的差异,尽量让多个batch的数据相一致,这样下游分析就可以只考虑生物学差异因素。

我们更希望去除的批次效应,其实是不同实验室,不同建库手段,不同测序平台所引起的批次效应。当我们希望通过合并同一组织数据挖掘出更有意义的信息时,就不可避免的会发现,明明是同个组织的数据,表达量就是存在明显的差异(PCA, t-SNE降维可视化)。

 

之前有人用bulk RNA-seq的方法(limma, ComBat,RUVseq, svaseq)对单细胞数据进行校正,但是这些工具的基本假设都是"bulk RNA-seq数据中的细胞组成相似",可能适用于一些数据集,但是可推广性不强(Haghverdi et al., 2018)。于是就有一些专门用于单细胞转录组批次校正的工具,例如:

最后对于不同的实验设计,我看帖子上大牛们推荐的批次矫正方法:

    技术重复: ComBat

    细胞系,生物学重复:ComBat

    同一个人的癌症和癌旁组织:不校正/Harmony

    不同实验室的同一组织:Harmony

    同一个实验室做的不同人的样本: 不校正/Harmony

学习:https://blog.csdn.net/u012110870/article/details/115511818

本文使用 文章同步助手 同步

上一篇下一篇

猜你喜欢

热点阅读