单细胞转录组 | 聚类分析中的机器学习与统计方法综述(三)

2023-09-03  本文已影响0人  生物芯时空

接上回,在单细胞转录组 | 聚类分析中的机器学习与统计方法综述(一)单细胞转录组 | 聚类分析中的机器学习与统计方法综述(二)中,综述了在过去几年间发展起来的,用于单细胞转录组分析中聚类的机器学习和统计方法,重点介绍了如何将一些常见的聚类方法,如层次聚类、基于图的聚类、混合模型、k-means、集成学习、神经网络和基于密度的聚类等加以调整及应用,从而解决单细胞转录组数据分析中的独特挑战,例如低表达基因的缺失,转录本的不均匀覆盖,以及由技术偏差和不相关的混杂生物变异所带来的细胞标记的失真。我们评价了标准化、dropouts推测以及降维等预处理步骤如何提高聚类效果。

本文将继续介绍一些能够对时间序列样本和多个细胞群进行聚类并且检测罕见细胞类型的新方法。最后,对部分开发用于单细胞转录组聚类分析的软件进行了实验和比较,以评估其性能和效率,为未来的数据分析提供一定的指导和方向。

01 罕见细胞类型及单个细胞类群

在单细胞的聚类分析中,罕见细胞类型的检测是一个重要问题,因为在发育或疾病进展中起重要作用的细胞类型往往丰度较低。由于罕见细胞类型的群体规模小,在标准的聚类分析中往往难以检测到。

RaceID是专门用于从单细胞转录组数据中识别稀有细胞类型的一种聚类工具。该工具首先计算细胞间Pearson相关性用于k-means聚类。在每个类群中,根据和背景噪声模型相比的基因的变异型筛选离群细胞。最后,如果离群细胞的相关性超过原始聚类中细胞间相关性的阈值,则将离群细胞合并到离群簇中。

GiniClust是另一个聚焦于罕见细胞发现的聚类工具。在算法中使用基尼系数进行特征基因的选择。与常用的Fano因子相比,这种方法对细胞总量占比较低的细胞群体更加敏感。最后,利用基尼系数筛选得到的基因作为特征进行DBSCAN密度聚类,检测稀有细胞类型。

属于稀有细胞类型的细胞也可以被视为聚类过程中产生的异常值。在大多数已公开的单细胞聚类算法中,都可以生成数量相对较小的簇,甚至该簇中只包含一个细胞。虽然这可能是由于聚类算法的初始化或收敛性差造成的,但它也可以被解释为来自罕见细胞类型的异常细胞。一些算法或工具包含特定的技术和参数,能够进行罕见细胞类型的检测。以使用层次聚类的SINCERA为例,它不要求用户指定簇之间的最小距离,而是使用允许的最低细胞数量的阈值。

02 细胞Marker基因的检测

聚类分析的另一个重要目的是发现新的Marker基因,以描述通过聚类发现的每种细胞类型的基因表达模式和功能,从而用于未来的生物学解释和实验验证。大多数方法是在聚类后通过对不同类群之间的差异表达基因进行统计检验分析来识别Marker。例如,Seurat使用Wilcoxon秩和检验,这是一种基于排序表达值中秩次统计量的非参数检验方法。在SINCERA中,当样本容量较小,同样使用秩和检验,当样本容量变大时则使用Welch’s t检验。

除了上述方法是将差异表达分析作为聚类的后处理步骤,还有一些则是在聚类的过程中同时进行Marker基因的检测。BackSPIN计算每次分裂后每个簇中的平均基因表达量,并将每个基因分配到表达量最高的簇中。DendroSplit通过Welch’s t检验识别p值最显著的Marker基因作为类群分离评分,以决定是否需要在层次聚类中进一步拆分分支。SAIC使用k-means对细胞进行聚类的同时,利用方差分析选择Marker基因。

03 方法评估

在本节中,我们对单细胞转录组的聚类方法进行了两次实验评估。在第一个实验中,我们使用人外周血单细胞数据,比较了几种广泛使用的单细胞聚类工具或方法,以确定不同方法的优势和局限性。在第二个实验中,我们对来自5个个体的212个乳腺癌细胞进行了聚类,以评估不同的工具在不同批次来源的多个细胞群中的聚类性能。

人外周血数据  

我们从10x Genomics网站下载了PBMC数据,在原始数据中总共包含了103887个细胞。除了使用整个数据集去进行方法的比较外,我们还对原始数据按照不同大小(100,1000,10000)进行向下采样以评估其延展性。数据集最初包含32739个表达基因,我们从中选择了至少在3个细胞中表达的19630个基因。(使用的计算机参数:Intel Xeon E52687W v3 3.10GHz, 25 M Cache and 256 GB of RAM)。

Figure 5. PBMC中聚类方法的比较

(A)Y轴表示ARI值,X轴表示不同的测试数据集。其中不同颜色代表了不同的工具或方法。(B)Y轴表示运行时间,X轴同图A。曲线截断表明该方法在相应数据集下不再适用。

如图5所示,通过对10次不同的运行结果取均值和标准差,对ARI和运行时间进行了比较。结果表明,在这些方法中,Monocle、cellTree、Seurat和SC3的表现最好。但是,由于内存问题,Monocle、cellTree和Seurat不能扩展到所有的测试数据集。SC3的算法中,最多对5000个细胞进行聚类,剩余的细胞则通过构造一个支持向量机(SVM)完成。而除去这一监督学习的步骤,SC3的表现和cellTree、Seurat相似。pcaReduce能够应用于所有的数据集,但运行时间超过2天(图5B),同时聚类结果并没有因为数据集包含细胞数的增多而得到改善(图5A)。SCRAT包在对100个细胞时进行聚类时表现良好,但当使用40个单元(此处单元表示具有相关基因表达的细胞)聚类1000个细胞时变得不稳定。此外,该工具至少需要3天时间来处理5000个细胞的数据集,因此不能扩展到更大的数据集。

图5A还显示,SC3和pcaReduce等使用k-means作为聚类步骤之一的工具在多次运行中的方差最大,而使用层次聚类的工具cellTree、CIDR和DendroSplit,使用基于图聚类方法的工具SNN-Cliq和基于密度的聚类工具Monocle在多次运行中总是保持相同的聚类结果。混合模型TSCAN和Seurat以及神经网络方法SCRAT也返回相同的聚类结果,这表明在聚类实现的过程中使用了一些固定的初始化策略。

进一步分析发现,基于层次聚类的方法显示出非常接近的平均ARI结果。当聚类1000个细胞时,我们可以看到BackSPIN、CIDR、DendroSplit和ICGS的ARI值大约在0.25到0.3之间。cellTree虽然也是基于层次聚类,但应用了LDA对数据进行降维,这似乎更适用于原始计数数据。在基于划分的聚类方法上,我们可以看到,尽管pcaReduce使用k-means作为其框架的一部分,但通过正确使用PCA和聚类的合并策略,能够显著改善聚类的结果。SC3看起来是一种前景不错的方法,它结合了几种不同的距离测量和映射方法的优点,然而,当数据集增大,即SC3开始依赖SVM对更多的细胞进行分类时,结果似乎是不稳定的,例如聚类10000个细胞的结果要差于聚类1000个细胞的结果。使用GMM的TSCAN在大数据集中表现出比k-means更好的结果,这表明高斯混合模型可能在聚类中发挥更好地积极推动作用。对于基于密度的聚类,Monocle在聚类10000个细胞时的性能优于其他方法。最后,尽管Seurat和SNN-Cliq都建立了SNN作为聚类的基础,但是前者的总体表现更优,可能是因为Seurat使用了Louvain算法,而SNN-Cliq则是基于团检测的方法。

这个实验表明,即使有大量的专门为单细胞分析所开发的聚类方法,它们在聚类数千个细胞时的结果显示出相当大的变化。并且我们仍然需要一些方法,这些方法不像SC3那样依赖于监督学习,就能够应用于大型数据集,例如数十万个细胞或者更多。

乳腺癌数据  

我们从公共数据中下载得到了来源于11名乳腺癌患者共515个细胞的数据集,该数据集包含了25636和基因的TPM表达值,我们从中提取了5000个高变基因进行此次分析。这些细胞总体包含三类:免疫细胞、基质细胞和肿瘤细胞。由于一些患者的数据未覆盖到全部三种类型,因此,我们最后使用了来自5名患者的212个细胞作为此次实验的对象。

该数据集的主要目的是用于比较两个适用于混合样本聚类的工具。首先,Seurat主要通过CCA的方法对来自不同患者的数据进行整合。运行Seurat时,我们选取了几个不同的参数:特征基因数量分别为{3000,3200,...,5000},典型相关成分{2,...,10},分辨率{0.2,0.3,0.4,0.5}。通过几种不同的组合分析,我们最终发现,表现最优的组合是1600+2+0.2,分别对应上面三个参数。scVDMC在数学优化框架中使用内嵌的特征选择来寻找一小组共享的基因以整合数据集。我们同样选取不同的参数进行组合,最后得到的最优组合是λ = 1000,α = 3,w = 3。

Figure 6 BRCA中聚类方法的比较

(A)Y轴表示ARI值,X轴表示不同工具和数据集的组合。(B)同图A。

我们也将这两个工具和上一节中表现最好的Monocle,SC3以及cellTree在两个层面进行了比较:按照样本来源分离单独进行聚类;合并样本聚类。图2展示了比较的结果。从图6A中我们可以看到,SC3和cellTree在合并聚类的得分中要差很多,提示我们简单的合并样本不适用于整合多个不同来源的单细胞数据。我们还注意到scVDMC和Seurat都获得了较高的ARI。其中,scVDMC的平均值为0.681,Seurat的平均值为0.675。尽管scVDMC的均值更高,但其方差也比较大,与Seurat的差异并不具有统计学意义(p=0.3511)。另外,scVDMC相较于Seurat拥有更少的运行时间(p=2E-14)。总的来说,这些结果表明对于混合的样本使用内置批次矫正方法(如包含CCA的Seurat)的工具更为有效。

04

讨论

    在过去的几年里,专门用于单细胞数据分析的聚类算法已经有了实质性的发展。这些算法旨在解决单细胞数据中固有的挑战,例如细胞特异性偏差、dropouts和技术噪声。一些用于解决特定情况(批次、罕见细胞、时间序列)的工具已经被开发出来。此外,不同的方法也越来越关注数据的预处理,如标准化、降维和相似性度量等,这些方法有助于减少执行聚类前的技术差异。总之,这些计算方法的进步为单细胞数据的聚类分析提供了非常大的帮助。

我们也注意到,由于单细胞平台的发展,细胞捕获和测序的成本及时间也越来越低,捕获的细胞数量越来越高。因此,越来越多的研究更需要扩展性良好的聚类工具或方法,以便能够在更大的数据集中进行使用。而这一发展也为分析带来了新的挑战,大多数现有的工具都无法很好地应用到数万个甚至更多的单细胞数据,所以也限制了部分算法在未来研究中的适用性。

另一个现有方法的缺陷是关于数据的整合。如今,单细胞数据集仍然在不断地快速增长,这些开放的大量数据将会使我们对特定细胞类型、细胞标记、表达模式等拥有更深的了解。此外,这些数据还有助于构建大规模不同疾病队列的单细胞图谱。然而,目前的聚类方法中,很少有专门应用于多数据的合并聚类分析,往往需要借助其它工具的使用。

除了本文中主要描述的无监督学习方法之外,还有一种使用监督或半监督学习方式来进行细胞聚类的替代方法。例如,SC3包使用监督学习将多余的细胞分配给通过共识聚类发现的簇,提高了其在大数据集应用上的延展性。再比如,当有一个已知类别的参考数据集时,通过Scmap,可以将其他数据集中未知的细胞比对到该参考数据集中最相似的细胞,从而实现细胞的聚类。

最后,除了单细胞转录组的数据之外,更多不同类型的单细胞组学方法也呈现风靡之势。尽管面对新类型的单细胞数据,现有的方法仍然部分适用。但是在未来,也迫切需要应对多组学整合聚类的新的计算方法。

参考文献  

[1] https://blog.bioturing.com/2022/01/27/a-guide-to-scrna-seq-normalization

[2] Campigotto, Romain & Conde-Céspedes, Patricia & Guillaume, Jean-Loup. (2014). A Generalized and Adaptive Method for Community Detection.

[3] Kiselev, V., Kirschner, K., Schaub, M. et al. SC3: consensus clustering of single-cell RNA-seq data. Nat Methods 14, 483–486 (2017).

[4] Stuart T, Butler A, Hoffman P, Hafemeister C, Papalexi E, Mauck WM 3rd, Hao Y, Stoeckius M, Smibert P, Satija R. Comprehensive Integration of Single-Cell Data. Cell. 2019 Jun 13;177(7):1888-1902.e21.

上一篇下一篇

猜你喜欢

热点阅读