单细胞笔记19-scATAC-seq的细胞注释工具AtacAnn

2023-07-29  本文已影响0人  江湾青年

单细胞ATAC-seq(scATAC-seq)能够测量单细胞水平的染色质开放信息,是用于研究基因调控和细胞异质性的重要方法之一。细胞注释是scATAC-seq数据分析中最重要的一步,然而,scATAC-seq数据由于其高维度、高稀疏度、高噪音的特点,使得细胞注释较为困难。大多数现有的注释方法基于多模态整合,容易受到批次效应的影响,并且可能会忽视稀有的细胞类型。

AtacAnnoR是近期发表在Briefings in Bioinformatics上的一种新颖的单细胞ATAC-seq的细胞注释工具。AtacAnnoR可以利用已标注的scRNA-seq数据作为参考,对scATAC-seq的细胞类型进行注释。工具链接:https://github.com/TianLab-Bioinfo/AtacAnnoR

方法介绍

AtacAnnoR方法流程图

简单来说,AtacAnnoR主要利用两轮注释的方法,从而避免批次效应和跨模态细胞注释。

方法表现

作者设计了三种情况,系统地对AtacAnnoR的表现进行了测试。这三种情况分别是:

benchmark测试的三种情况

作者将AtacAnnoR和Seurat v3(2019, Cell),GLUE(2022, Nature biotechnology),scJoint(2022, Nature biotechnology),Conos(2019, Nature methods), MAESTRO(2020, Genome biology)和CellWalkR(2021, Genome biology)进行了比较。

在第前两种情况下,AtacAnnoR的注释准确率和GLUE几乎处于并列第一的位置,而平衡准确率(balanced accuracy)要远好于其他方法,说明AtacAnnoR不止能对数量多的细胞类型准确注释,同时也能关注到细胞数量较少的亚群。作者对稀有细胞类型的准确率检查也说明可这一点:AtacAnnoR对稀有细胞注释的平均准确率达到了0.9,而第二名的GLUE只有0.71。Seurat v3和scJoint是表现也还不错的方法,但Seurat在细胞比例极端不平衡的数据集上表现不佳,而scJoint的问题在于对稀有细胞类型的注释效果不佳。

前两种情况的AtacAnnoR与其他方法注释结果比较

对于第三种情况,AtacAnnoR的优势更加明显,达到了0.91左右的准确率,而第二名的Seurat v3仅有0.75。在前两种情况表现很好的GLUE方法在地三种情况下仅达到了0.55的准确率。这说明其他方法受批次效应的影响较大,而AtacAnnoR几乎不受影响。

第三种情况的AtacAnnoR与其他方法注释结果比较

最后,作者调查了其他方法失败的可能原因。作者发现,GLUE注释出的scATAC-seq的细胞比例与参考scRNA-seq的细胞比例有着非常高的相关性,Seurat v3也有部分相关性,这可能是因为他们都是首先对两个模态进行数据整合,然后再利用近邻细胞进行细胞注释。如果参考数据和待注释数据的细胞比例有较大差异,整合可能失败,从而导致细胞注释结果不准确。


参考

原文链接:https://doi.org/10.1093/bib/bbad268
工具链接:https://github.com/TianLab-Bioinfo/AtacAnnoR

上一篇下一篇

猜你喜欢

热点阅读