单细胞文献阅读003--14种批次去除算法的比较
一. 研究背景
使用不同技术生成的大规模单细胞转录组dataset,批次效应特殊的系统变化对批次效应效果的去除和dataset成提出了挑战。随着scRNA-seq数据的持续增长,实现计算器资源的有效批次集成是至关重要的。在这里,作者对批次效应校正算法的基准进行了深入的研究,以确定最适合去除批次效应的算法。
二. 分析流程
三.结果解读
1.使用5个评估指标对十个dataset的14种整合方法进行全面测评
图1 基于10个数据集,使用5个评估指标对14个算法进行基准测试。作者使用t-SNE和UMAP可视化技术,结合kBET、LISI、ASW、ARI和DEG等基准度量来评估14种算法在保持细胞亚群分离准确性的同时进行批次集成的能力。所用的数据集涵盖了人和小鼠不同类型的细胞,如树突状细胞、胰腺细胞、视网膜细胞和外周血单核细胞(PBMCs)等。所使用的技术范围也很广,包括10x、SMART-seq、Drop-seq和SMARTer等。 表1.十四种批次效应校正算法描述2.不同情形下对校正方法进行评估
2.1 情形一:不同的方法对同一细胞类型的批次校正
- 使用UMAP可视化技术对dataset2(小鼠细胞)进行的14种批次效应校正算法,并对校正结果进行定性评价。
结果显示:Seurat 2
,Seurat 3
,Harmony
和fastMNN
等方法降维后亚群聚类情况较好 。
- 使用ASW、ARI、LISI和kBET等四个评估指标对“dataset2”14种批次效应效应校正算法进行定量评估
结果显示,综合对批次集成和细胞亚群纯度的四项指标评估结果中,Harmony算法的排名都比较靠前。
- 使用UMAP可视化对dataset5(人外周血单个核细胞)进行的14种批次效应校正算法,并对校正结果进行定性评价。
图4结果显示: scGen
、MMD-ResNet
和LIGER
的降维后亚群聚类情况较好。
- 使用4个评估指标对dataset5的14种批次效应校正算法进行定量评估
结果显示Harmony
、Seurat 3
、LIGER
去批次效应结果较好。
小结:对于这两个dataset(人PBMCs和鼠细胞图谱),
Harmony
、Seurat 3
和LIGER
是首选的三种算法。
2.2 情形二:每个批次的细胞类型不完全相同
- 利用UMAP对dataset1(人树突状细胞)的14种批次效应校正算法进行评估
对可视化图的检验表明,大多数算法可以将两个批次的细胞混合在一起。不过,limma使两个批次的细胞簇接近,但没有实现混合,而MMD-ResNet和BBKNN无法混合常见类型的细胞簇。
- 使用4个评估指标对dataset1的14种批次效应效应校正算法进行定量评估
结果显示:对于dataset1,综合四项指标,fastMNN
是最优的算法,其次是LIGER
和scMerge
。
- 使用UMAP对dataset6的14种批次效应校正算法进行评估
结果显示scGen
、scMerge
和BBKNN
的降维聚类效果较好。
- 使用4个评估指标对dataset6的14种批次效应效果校正算法进行定量评估
综合4个评价指标来看,Harmony
是最优算法,其次是Scanorama
和scGen
。
- 使用UMAP对dataset7(小鼠视网膜细胞)的14种批次效应校正算法进行定量评价
结果显示:ComBat
和limma
处理后的降维聚类效果较优。
- 使用ASW、ARI、LISI和kBET四个评估指标对dataset7的14种批次效应评估
结果显示LIGER
是此次最优的算法,其次是MNN Correct
和scMerge
。
- 利用UMAP可视化技术对dataset10(小鼠造血干细胞和祖细胞)的14种批次效应校正算法进行定量评价
结果显示:Seurat 2
、Seurat 3
、Harmony
、Scanorama
和LIGER
处理的降维聚类效果较优。
- 使用ASW、ARILISI和kBET四个评估指标对dataset10的14种批次效应校正算法进行定量评估
综合四个指标来看,Harmony
、Scanorama
和LIGER
是该dataset的较优算法。
小结:
在情形二中,作者在四个不同的dataset上评估了14种批次效应校正算法。
虽然没有一种算法对所有dataset都是最优的,但LIGER是dataset1,7,10的较优算法,而scMerge在dataset1,6,7中排名第三。Harmony在dataset6和10中排名第一,而Scanorama在dataset6和10中排名第二。
基于这些结果,
LIGER
是这个情形的较优算法。
2.3 情形三:存在多个批次(测试了多个批次下的批次效应校正能力)
- 使用UMAP可视化技术对dataset4(人胰腺细胞)的14种批次效应校正算法进行定性评价
结果显示:Seurat 3
、Harmony
、scGen
和LIGER
处理后的降维聚类效果更优。
- 使用ASW、ARI、LISI和kBET四个评估指标对dataset4的14种批次效应效应校正算法进行定量评估
综合四项指标,Seurat 3
是较优的算法,其次是scGen
和scMerge
。
情形2中分析dataset6(也包括了两个以上的批次)中整合效果较好的前几名依次是Harmony、Scanorama、scGen和scMerge。
⚠️所以综合dataset4和6的评估情况来看,作者给出的建议是:
- 对于已标记细胞类型的dataset,建议使用
scGen
;- 对于未标记细胞类型的dataset,推荐使用
Seurat 3
和Harmony
。
2.4 情形四:处理的数据集很大(在两个大dataset上测试这些算法)
- 用UMAP可视化技术对dataset8(小鼠大脑)的14种批次效应校正算法进行定量评价
结果显示:只有LIGER
在实现分批混合的同时,保持了较好的细胞类型分离。
- 使用ASW、ARI、iLISI和kBET四个评估指标对dataset8的14种批次效应效应校正算法进行定量评估
综合四项指标显示:最优的是Seurat 3
,其次是scGen
和Seurat 2
。
- 使用UMAP可视化技术对dataset9(人类细胞图谱)的14种批次效应校正算法进行定量评价
- 除了scMerge、limma和Scanorama,大多数算法都能够均匀混合批次。
综合四项指标,排名前三的算法依次是LIGER
、ZINB-WaVE
和MMD-ResNet
。
因此
LIGER
、ZINB-WaVE
和MMD-ResNet
这三种算法都被推荐用于大型的dataset。
2.5 情形五:DEG评估
- 利用模拟dataset和差异基因表达分析评价八种批次效应校正算法
图20A:作者按所示的DEG分析工作流程,对8个算法进行了评估。
使用Splatter包生成6组具有预定义批次效应效果和差异基因表达谱的模拟数据。
使用Seurat包对校正后的数据进行差异基因表达分析。
批次效应校正的矩阵中识别的差异表达基因(DEGs)与ground truth DEGs进行比较,并计算精度、Recall和F-score等指标。
图20B:为图20A中用到的6个模拟dataset,并对drop-out值和批次的情况作了展示。
图20C:计算了上调和下调基因的F-score。根据F-score,MNN Correct,ZINB-WaVE,ComBat和scMerge是表现最好的方法。
简单来说,若想获得一个用于下游分析批次效应校正矩阵的话,
ComBat
、MNN Correct
、ZINB-WaVE
和scMerge
是作者推荐的算法。
3. 整合上述分析结果
十四种批次效应校正算法的有效性和效率
图21A:根据ASW、ARI、LISI和kBET指标对算法进行评估,然后使用秩和算法对所有指标进行排序。
山脊线的高度表示不同dataset的rank和score,rank和score越低表示性能越好。即出现在底部的Harmony
、LIGER
和Seurat 3
是总体得分最高的三种算法。
图21B:对于dataset8的十四种算法的内存使用情况。
图21C:展示了14种算法处理时需要的时间。
小结
本文作者基于10个人和鼠的dataset,使用t-SNE和UMAP可视化技术,结合kBET、LISI、ASW、ARI和DEG等基准度量,来评估对14种去批次效应算法的批次效应校正结果。
不同情形下推荐的去批次效应算法总结:
情形 | 推荐的去批次效应算法 |
---|---|
不同的技术处理下相同细胞类型的批次 | Harmony、Seurat 3、LIGER |
每个批次的细胞类型不完全相同 | LIGER、Harmony |
有多个批次 | Harmony、Scanorama、scGen、scMerge |
处理的数据集很大 | LIGER、ZINB-WaVE、MMD-ResNet |
用于下游分析批次效应校正矩阵 | ComBat、MNN Correct、ZINB-WaVE、scMerge |
综合以上 | Harmony、LIGER和Seurat 3 |