【单细胞】单细胞数据的批次效应

2021-11-26 本文已影响0人 jjjscuedu

在数据分析的时候，我们的目标是一般都是找到样本之间真实的生物学差异。但是这种真实的生物学因素往往会受到各种因素影响，举几个场景：

不同样本
同一样本的生物学重复
同一样本的技术重复
同一样本在同一个实验室由同一团队在不同时间点处理
同一细胞系/植物组织在不同实验室
不同建库策略，10X平台，Drop-seq,SMART2-seq
不同测序平台，BGI/Illumina
不同分析流程(甚至一个工具的多个版本，如salmon，CellRanger)

这些因素之间有些是生物学真实的差异，有些是抽样时的随机波动。有些是系统性因素，统称为批次效应(batch effect)，顾名思义，不同批次带来的效应。如果效应比较小还可以接受，如果批次效应很严重，就可能会和真实的生物学差异相混淆，让结果难以捉摸。我们需要辨别到底存在多大程度的批次效应，对我们真实的生物学样本会不会产生影响。

如下所示，这两个数据是不同时期做的同一个细胞，几乎没有交集，因此，我们分析的时候需要去除批次效应。

去除批次效应之前：

去除批次效应之后：

从直觉上讲，最好是分析的过程中过滤掉这种批次效应。但是即便是同一个人对同一个样本做的相同实验，也有可能因为时间差异导致批次效应，我们需要对这种数据集进行批次效应校正吗？我们对批次效应进行校正的同时也会引入新的问题，它很有可能将生物学本身的差异视为批次效应，然后将其去除。校正批次效应的目的就是：减少batch之间的差异，尽量让多个batch的数据相一致，这样下游分析就可以只考虑生物学差异因素。

我们更希望去除的批次效应，其实是不同实验室，不同建库手段，不同测序平台所引起的批次效应。当我们希望通过合并同一组织数据挖掘出更有意义的信息时，就不可避免的会发现，明明是同个组织的数据，表达量就是存在明显的差异(PCA, t-SNE降维可视化)。

之前有人用bulk RNA-seq的方法(limma, ComBat，RUVseq, svaseq)对单细胞数据进行校正，但是这些工具的基本假设都是"bulk RNA-seq数据中的细胞组成相似"，可能适用于一些数据集，但是可推广性不强(Haghverdi et al., 2018)。于是就有一些专门用于单细胞转录组批次校正的工具，例如：

Seurat/Integration
batchelor/FastMNN
scran/mnnCorrect
Python/BBKNN
BBER
Conos
LIGER
Harmony

最后对于不同的实验设计，我看帖子上大牛们推荐的批次矫正方法：

技术重复: ComBat

细胞系，生物学重复:ComBat

同一个人的癌症和癌旁组织:不校正/Harmony

不同实验室的同一组织:Harmony

同一个实验室做的不同人的样本: 不校正/Harmony

学习：https://blog.csdn.net/u012110870/article/details/115511818

本文使用文章同步助手同步

【单细胞】单细胞数据的批次效应

猜你喜欢

热点阅读