COSG:细胞注释界的万金油
为何选择COSG
对于单细胞数据的分析,细胞类型注释永远都是重中之重,细胞注释不对,那一切等于白费。近些年,众多生物信息工作者着重开发单细胞细胞类型注释的工具,但想要精准识别细胞类型仍然是相当困难的。今天Immugent就来给大家介绍一款新的非常轻便的细胞注释软件:COSG工具,是于2022年3月在线发表于 Brief Bioinformatics :Accurate and fast cell marker gene identification with COSG这篇文章上,COSG有Python和R版本,这意味着无论是 Seurat 还是 Scanpy 使用者都可以使用这个工具。小编感叹!!!
image.png为何细胞类型注释困难?
目前各种单细胞技术的广泛应用,让精准去分细胞类型显得尤为重要。常规细胞注释使用细胞标记基因鉴定的常用方法通常依赖于统计检验来寻找在数据集中感兴趣的细胞和所有其他细胞之间有差异表达的基因。然而,由于统计检验倾向于识别两组之间具有系统差异的候选基因,当将一种类型的细胞(靶细胞)与多种其他类型的细胞(非靶细胞)进行比较时,通过统计方法选择的顶级差异表达基因可能不是真正的细胞标记物。而且在很多疾病状态下,如肿瘤组织中,有很多的免疫细胞和基质细胞类型(如下图),这对准确的进行细胞注释无疑是巨大挑战。
image.png目前来说,我们大多数的单细胞分析方法(和Seurat和Scanpy)中寻找差异基因的方法都是基于统计方法计算欧氏距离的。因此我们在做细胞注释的时候经常会发现,差异基因并不能作为细胞的marker进行细胞注释!为了解决上述统计方法带来的问题,就要来介绍介绍基于COSine相似性的标记基因识别(COSG),这是一种以更准确和更快的速度识别细胞标记基因的方法。
image.png为什么要叫COSG呢?
简单来说,COSG呢就是咱们数学里面经常用到的COSine啦,那选择COSine为什么适用于marker基因的识别呢?理论知识说起来!余弦相似度利用向量空间中向量之间的夹角的余弦值来度量两个n维向量之间的关系。与测量两个向量之间位置差异的欧氏距离不同,余弦相似度比较两个向量的方向,这意味着如果两个基因具有相同的表达模式,但一组细胞之间的表达丰度尺度不同,余弦相似度分析认为它们是等效的。余弦值不依赖于向量的模,在单细胞分析的背景下就是不依赖于基因的表达量,而依赖于基因的表达模式。因此,余弦相似性是与表达规模无关的,对于识别靶细胞中特异性表达的基因应该更加敏感。说完以后大部分人可能还是一脸懵。不过没关系,了解一下,咱们会用也是可以的呀!
COSG工作原理
image.pngCOSG旨在为预先分类的细胞群识别适当的marker基因。COSG的输入数据应该首先通过其他方法进行归一化。归一化后,COSG生成基因表达矩阵,进行聚类分群。基于现有的分群情况,COSG首先对每个细胞类群鉴定出一个marker gene,这个基因的表达特征是:只在目标细胞类群中表达,且不在其它任何一个细胞类群中有表达,这个基因就是每个细胞类群最理想的基因marker了。假设一共有k个细胞,那么每个基因的表达情况就是一个k维的向量(在每个细胞中的表达量作为一个维度),那么对于每个基因和每个细胞类群,COSG会计算该基因在目标细胞类群中与该目标类群marker gene的表达向量之间的夹角;再计算该基因在其它细胞类群中与其它细胞类群的marker gene的表达向量之间的夹角。最终鉴定出来的目标细胞类群的基因marker应该有如下特征:与目标细胞类群的marker gene表达向量之间的夹角越小越好(即有相似的表达模式)而与其它细胞类群的marker gene表达向量之间的夹角越大越好(即有相反的表达模式)。接下来文章,将COSG在单细胞转录组等数据上进行了验证,这部分大家可以参考一下原文进行了解哦!
讨论
余弦相似度的COSG算法,其核心思想是通过比较基因在n维细胞空间的向量夹角大小来描述基因在所有细胞中表达模式的相似性,具有更高的准确性和更高的细胞类型特异性,并且COSG可以作为一种跨不同数据模式的细胞标记基因识别的通用方法,能应用于大规模数据集,相比于其他现有方法在准确性和计算效率上具有明显优势。