百奥智汇联合张泽民教授课题组发表单细胞转录组快速注释新方法Sci
4月14日,百奥智汇创始人、科学顾问张泽民教授在北京大学的课题组联合百奥智汇科技有限公司在学术期刊《Nature Communications》上发表了题为“SciBet as a portable and fast single cell type identifier “的生物信息方法学论文,正式发布了基于单细胞转录组数据进行快速有监督细胞类型注释的新工具SciBet。
该方法充分利用已有数据作为参照,利用有监督的方法对新产生的数据集进行注释,可极大加快基于单细胞转录组测序的研究进程。相较于现有工具scmap和Seurat3,SciBet不仅在准确率上取得小幅领先,更是在计算速度上取得了上千倍的优势。用户仅使用个人电脑,就可运行SciBet实现每秒10万细胞量级的有监督细胞类型预测。
在处理未来将要问世的具有数亿细胞的人类细胞图谱数据集(Human Cell Atlas)等超大规模数据集时,SciBet将成为研究者们的最佳工具之一。
单细胞转录组测序能够揭示单个细胞的基因表达状态,反映细胞间的异质性,并为鉴定各种细胞的功能提供了重要途径。
此前,在单细胞转录组测序数据的分析过程中,对于鉴定细胞类型流程以无监督鉴定方法为主,即通过聚类方法找到各个细胞类群,并通过类群间差异基因得到其可能的功能进而对其作出生物学注释。而随着相关数据的积累,利用已有数据作为参照,用有监督的方法对新产生的数据集进行注释成为可能,也将极大加快基于单细胞转录组测序的研究进程。
近年来,有监督细胞类型工具如scmap、Seurat3相继问世,并在分类准确率上趋于饱和。然而,其非参数的本质决定了它们在面对超大规模数据集(如将要问世的具有数亿细胞的人类细胞图谱数据集,Human Cell Atlas)时,就会因消耗过多的计算时间而显得力不从心。
针对上述问题,百奥智汇创始人、科学顾问张泽民教授课题组的博士生李辰威、刘宝琳等联合任仙文副研究员开发出了一种新型有监督注释算法SciBet,为上述问题提供了一种有效的解决方案。
他们从“同一类型的单细胞表达谱服从同一多项分布”这一基本假设出发,对训练集数据中不同细胞类型分别进行建模,进而通过极大似然估计来对测试集细胞进行有监督注释。
在一批金标准数据集交叉验证的测试结果上,SciBet相较于scmap和Seurat3不仅在准确率上取得小幅领先,更是在计算速度上取得了上千倍的优势。用户可仅使用个人电脑,就可以使用SciBet实现每秒10万细胞量级有监督细胞类型预测。
在实际应用中,本课题还评估了SciBet在诸如跨数据集、跨测序平台、跨物种场景中的表现,结果证明SciBet均能稳健准确地完成有监督细胞类型注释任务。而对于测试集中出现了训练集中没有覆盖到的细胞类型,SciBet能够在正确识别这部分细胞的同时保持对其他细胞进行准确的注释。
SciBet算法的流程、性能评测及应用由于SciBet算法采用了简洁的参数模型,除了速度优势及可解释性强之外,其训练后的模型在存储上也非常高效,并且仅依赖细胞类型个数。如一个普通的拥有数十种细胞类型的数据集的SciBet模型,其大小不足1MB。
基于这一“便携“特性,该项目还发布了具有近一百个高质量数据集的SciBet预训练模型,这些模型均可以直接导入SciBet的R软件包中。除此之外,该课题还提供了基于JavaScript实现的在线版SciBet(http://scibet.cancer-pku.cn/),这使得用户无需上传自己的数据到服务器,仅需在线加载预训练模型或本地加载自定义训练集即可在浏览器中快速完成测试集中的细胞类型鉴定,并得到可视化分类结果。
任仙文副研究员表示:“作为面向未来超大规模数据集的单细胞快速注释方法,SciBet将会对单细胞测序领域产生重要积极影响。”
参考文献:
Chenwei Li,Baolin liu,Boxi Kang,... , Xianwen Ren*, Zemin Zhang*.SciBet as a portable and fast single cell type identifier.Nature Communications. 2020.