Genome Biology:运用机器学习鉴定肿瘤细胞
前言
如今单细胞转录组分析已经广泛应用于人类肿瘤疾病的相关研究中,然而在这些研究中仍有一项具有挑战性的工作,就是区分肿瘤微环境中的正常细胞和恶性细胞,以及探究肿瘤内部的亚克隆结构。此前 Broad 研究所出品的 InferCNV 软件,相信大家已经比较熟悉,然而该方法主要是为分析第一代单细胞转录组技术数据而设计的,第一代单细胞转录组技术的通量较低、测序深度较高,将其应用于新一代高通量单细胞转录组平台的数据中有一定局限性。
此外,以前的方法不能准确解决特定染色体断点的基因组位置,或者根据非整倍体拷贝数对肿瘤细胞和正常细胞进行分类。为了解决以上不足之处,后来的研究人员又开发了一种基于集成贝叶斯分割方法鉴定肿瘤细胞的软件,名为 CopyKAT。这个软件相对于Infercnv使用起来更加轻便,但是随后在使用中就发现会丢失一些拷贝数不多的肿瘤细胞。
因此,今天Immugent就来介绍一种新型的基于机器学习的算法--Ikarus,相应的文章发表在Genome Biology杂志上,篇名为:Identifying tumor cells at the single‑cell level using machine learning。在这个算法中,作者自己利用已经发表的多个肿瘤单细胞数据集训练出了一个十分稳健的模型,使用这个模型可以直接用于对其它单细胞数据自动化鉴定肿瘤细胞。
主要内容
单细胞RNA测序数据集之间有着明显的分布差异,不同个体的条件不同,细胞异化为癌症细胞的情形也不一样,这就导致难以枚举和纠正所有的技术变量和生物变量。 现有三种降低RNA测序数据集之间的差异分布的方法:(1) 在低维空间寻找数据集的相似性的流形匹配方法,并把他们对齐到一个空间中;(2) 通过潜空间嵌入来为批效应建模的领域适应深度学习方法;(3) 利用已学习的标记基因以及鲁棒统计来在不同数据集间进行知识迁移的基于基因集的分类器。
文章第一幅图展示的是Ikarus的整体框架,作者构建了一个新的机器学习模型,它由两个步骤组成(1)整合多个已经注释好的单细胞数据集,以基因集的形式发现肿瘤细胞的marker基因集,并且搭建一个分辨细胞类型的特异的分类器;(2)训练鲁棒逻辑回归分类器,用于严格区分肿瘤细胞和正常细胞。未知的细胞在模型中会被测试得到一个分数。
image.png为了验证这两个基因列表的有效性,进行了三个实验: 第一个实验是,以胃癌为数据集,捕获了癌症细胞以及正常细胞并进行RNA测序,利用ikarus进行识别并评分。结果是,用癌症基因列表进行评分时,癌变细胞的肿瘤评分明显高于正常细胞;用正常细胞的基因列表进行评分时,正常细胞的得分明显高于癌变细胞。这说明了两个基因列表的有效性。
第二个实验是,在ENCONDE数据库中下载了原始细胞(即分化程度很低,因此细胞的表达都比较基础,特异性弱、共性大)、正常而稳定的细胞(分化程度高)和癌症细胞的数据。用癌症基因作为标记进行评分时,癌细胞的得分最高,正常而稳定的细胞得分次之,原始细胞的得分最低;当使用正常基因作为标记进行评分时,原始细胞的得分最高,正常而稳定的细胞得分次之,癌细胞的得分最低。这说明了两个基因列表的有效性。
image.png第三个实验是测试这两个基因列表在面对不同种类的癌症细胞时,区分的能力如何。测试五种癌症类型的PDX样本以及癌症细胞系百科全书(CCLE)中的所有癌细胞系,发现所有癌细胞系的肿瘤标记评分都显著地高于正常标记的评分,这说明对于不同的癌症类型,这两个基因列表是有效的。
image.png随后,作者探索了肿瘤基因列表中的基因参与基因组重排尤其是基因融合的概率。由于像是基因组重排和基因融合这些行为是多种癌症类型中的致癌的驱动因素,因此这个研究是很有意义的。我们从ChiTaRS数据库中下载到了已知的癌症基因的与基因融合有关的知识和属性,之后我们找到数据库中的基因与我们的肿瘤基因列表中的基因的重叠,用这些重叠部分的基因与随机的基因比较融合特点,发现在我们列表中的基因3’端和5’端融合的概率明显高于随机基因集。
image.png总的来说,作者构建了一个新型机器学习模型,可以通过两步法来实现精准区分肿瘤细胞和正常细胞的难题。在第一步,Ikarus管道整合多个已经发表的准确标记肿瘤细胞的数据集,以提取区分肿瘤细胞和正常细胞的基因集。在第二步中,Ikarus使用稳健的基因集评分以及自适应网络传播进行细胞分类。通过稳健基因集评分和网络传播,作者缓解了单细胞分析中常见的两个问题:批效应对样本比较的影响和聚类过程中的参数优化,从而可以更好的适用于大数据集的肿瘤细胞鉴定。
结语
从上面的流程我们也可以看出,Ikarus受制于对注释良好的单细胞数据集的依赖。对于基因集的定义和测试,都依赖于已经相对准确的细胞注释结果,这导致分类器被局限于少数被分析和注释的细胞类型。其实,Ikarus并不局限于肿瘤细胞的检测,它可以用来检测任何细胞状态,比如其它特殊的细胞类型,甚至稀有细胞。由于Ikraus工作时会根据我们提供的基因列表对数据进行注释,所以我们提供的基因列表的特性也就决定了ikarus能对什么样的细胞进行注释。这样做扩展的唯一的要求是,细胞状态至少在两个独立的实验中出现,且这些实验都有专业的注释。
在本期推文中,Immugent只是对Ikarus的整体功能框架进行了介绍,下一期将会通过代码实操的方式展示如何使用Ikarus对我们的数据集进行肿瘤细胞鉴定。
好啦,本期分享到这里就结束了,我们下期再会~~
[参考文献]
Dohmen J, Baranovskii A, Ronen J, Uyar B, Franke V, Akalin A. Identifying tumor cells at the single-cell level using machine learning. Genome Biol. 2022 May 30;23(1):123. doi: 10.1186/s13059-022-02683-1. PMID: 35637521; PMCID: PMC9150321.