【单细胞测序】关于批次效应 batch effect

2021-10-29  本文已影响0人  夕颜00

单细胞数据的处理过程中,让人头秃,批次效应一定有功。

批次效应,顾名思义,不同批次带来的效应。

考虑深层次造成批次效应的原因(个人理解)

宏观层面上考虑,1)对样本处理问题,2)细胞活性问题,3)试剂kit问题,4)测序问题,等都有可能

微观本质上考虑,上述问题 1)造成了样本间mRNA的相对不稳定,2)造成细胞破裂,其mRNA流出最后污染整个样本,3)造成样本间mRNA捕获率不一致,4)造成测序饱和度不一致,或者数据质量不一,等

不同项目中,面临的批次效应程度各有不同,有些可以不用特殊处理,有些甚至怎么处理都不管用。个人经验发现,来自人的样本最容易有批次效应的表现,而模式动物的样本表现出来的批次效应都较为有限。

在我个人的项目中,样本是由以实验为主的实验室处理的时候,批次效应最为微弱,可能是他们更懂得处理样本。所以最好是专业的事让专业的人来做。

下面介绍对批次效应处理方法

  1. 几乎不存在批次效应的时候

这里对几乎不存在批次效应的定义:对不同样本完成QC后,直接使用Seurat的merge函数处理,在最后的UMAP或者t-SNE图里面,不同样本之间的细胞群体融合很好,而剩下的细胞群体看起来是分离的。

这个时候需要考虑这种现象是不是生物学差异造成的。因为通常来讲,批次效应影响的是整个样本,整份数据。那么有批次效应的时候,各个细胞群都不能很好融合。因此出现上述现象,很可能是不存在批次效应的,需要再仔细考虑。

  1. 批次效应不明显的时候

这里对批次效应不明显的定义:对不同样本完成QC后,直接使用Seurat的merge函数处理,在最后的UMAP或者t-SNE图里面,不同样本之间的细胞群体没有看到融合,但不是完全分离。

在这种情况下,可以先尝试调试数据处理过程中的参数,特别是VariableFeature数的选择,直到不同样本在可视化的时候能够重合得较好。

如果调参确实解决不了,看下一条。

  1. 批次效应

定义就是不在上述范围。

处理批次效应之前,最好先尝试理解批次效应的来源。因为有些时候批次效应是因为发生了污染,有一个词叫ambiant RNA,意思是不是当前细胞来源的mRNA。因此对待这种情况,应该尝试找出ambiant RNA的来源。方法如下

用merge把样本合并之后,对细胞分群,然后定义细胞类型。之后,把两群认定是同意细胞类型(亚类)的细胞做差异基因分析。然后查看其中的差异表达基因,看一下其中是否有“奇怪的基因”,比如,Hba,Jchain等明显是红细胞和浆细胞的特征基因。多做几组,看是否有同样的发现。然后再用如FeaturePlot眼见为实。

举例:如果发现Hba-a1,Hba-a2, Hbb-bs, Hbb-bt等红细胞基因,可用FeaturePlot对这些基因进行确认,在FeaturePlot中,如果这些基因在某个样本中所有基因都看到了低程度“表达”,那很有可能是这个样本在处理过程中,红细胞发生了破裂,内含的血球蛋白的mRNA流出,污染了整个样本。这便是当前不同样本间的批次效应来源之一。

为什么是红细胞和浆细胞?

这是我个人项目所观察到的现象。可能有两个原因:1)成熟之前的红细胞为了功能化会大量转录翻译血球蛋白,因此细胞内含有数量巨大的mRNA。浆细胞亦然,因为合成大量抗体的需要,会有很多关于相关抗体的mRNA。这一解释可以通过查看对应细胞内对应mRNA的raw counts数目得到证实。2)红细胞和浆细胞更容易因为渗透压发生破裂。

这样的来源的话,如何处理?

简单而有一定成效的方法是,在计算PCA的时候,用的基因里面去掉相关基因。

如果不是因为这样的原因造成的批次效应,那最后可能只能使用数据整合的方式,比如Seurat的IntergrateData。具体就不在这详解了

转载来自:
作者:dooooob https://www.bilibili.com/read/cv6412828 出处:bilibili

上一篇下一篇

猜你喜欢

热点阅读