一文带你了解所有单细胞注释软件
说在前面
生信宝库对单细胞亚群注释这个问题已经写了很多推文了,如:一文解决单细胞亚群注释的所有问题; SciBet:一个软件解决单细胞注释所有烦恼;mtSC:整合多参考数据集进行单细胞亚群注释等,分别从各个角度来揭示单细胞亚群注释中要注意的问题和技巧。作为单细胞数据分析最核心的步骤之一,细胞亚群注释的准确性直接关系到后续的所有分析,因此对这个问题怎么强调都不为过。
Immugent在之前的推文:生信综述?带你解锁高分单细胞发文骚操作!中介绍了如何通过汇总或者对比具有特定功能的软件,从而发表高分纯生信文章。本期推文Immugent就来介绍一篇总结了截止到2021年所有的单细胞注释软件,相关文章以题为:Automatic cell type identification methods for single-cell RNA sequencing的形式发表在Computational and Structural Biotechnology杂志上。
废话不多说,我们来一起学习一下这篇文章。
主要内容
文章的第一幅图就是对所有单细胞亚群自动注释软件的底层工作框架进行了汇总,可以看出此类大多数软件主要都是基于相似性、随机森林和神经网络等,再进一步组合优化而来。
![](https://img.haomeiwen.com/i21134748/a96e582934db234b.png)
然后作者就是列出了目前所有单细胞亚群自动注释软件的信息,不用说了,这是小编见过总结的最全的了。
![](https://img.haomeiwen.com/i21134748/69be39e97c199612.png)
![](https://img.haomeiwen.com/i21134748/6a5af706180a6d0f.png)
然后作者通过已经发表的小鼠图谱数据集(Tabula Muris)对这几十种算法进行了功能评估,Immugent觉得这个工作量其实还是蛮大的。
![](https://img.haomeiwen.com/i21134748/e7ed434f845a6071.png)
对于单细胞自动注释软件来说,除了准确性,注释的速率也是很重要的因素之一,因为在实际使用自动注释软件都是比较庞大的数据集。
![](https://img.haomeiwen.com/i21134748/af342744b4ca0ee7.png)
通过从准确性,速率和新细胞亚群的预测能力等多方面综合评估后发现这些算法并没有绝对的好和坏,都有各自的优点,这也给我们提示在实际应用中要根据需要来个性化选择合适的单细胞注释软件。
![](https://img.haomeiwen.com/i21134748/d166a845226a637d.png)
最后,大家可以通过作者这张汇总图来个性化选择适合自己数据分析的软件。此外,值得一提的是之前一直被鼓吹的神器--scVI,它的综合表现并不是很好,而小众软件-clustifyr却表现亮眼。
小结
从第一款单细胞自动注释软件在2018年被开发以来,短短的3年时间里已经有几十款同类软件了。在这篇文章中,作者系统地比较了现有的几十种单细胞自动注释方法的特征、分类器、模型、预测性能、速度和新细胞亚群的预测能力。在准确率、F1-score、非标记率、肿瘤细胞特异性和敏感性、速度方面,最好的是基于三种自动学习方法(eager learning, lazy learning and marker learning),它们的结果总体上表现相似。
在eager learning方法中,clusteryr、scHPL和scPred在所有指标上都表现良好。SingleCellNet、SciBet和Seurat在准确性、f1得分和速度方面表现良好。在lazy learning methods中,cellfishing.Jl似乎是最好的方法。而在marker learning methods中,SCSA、SCINA、scTyper和CellAssign的表现较好。
好啦,本期推文到这就结束了,希望这次分享所提供的信息能对大家今后在选择单细胞自动注释算法上提供帮助。