单细胞测序单细胞测序技术菜鸟单细胞测序学习笔记

单细胞数据挖掘||Garnett :基于监督学习的细胞注释算法

2019-10-24  本文已影响0人  周运来就是我

单细胞分子分析技术正得到迅速发展,但人工标注细胞类型的过程通常是劳动密集型的,而且速度有限。我们描述了Garnett,这是一种在单细胞转录分析(sc-RNA)和单细胞染色质可达性(sc-ATAC)数据集中快速注释细胞类型的工具。Garnett是基于细胞类型特定marker基因的一种可解释、分层标记语言。Garnett成功地分类了组织和整个有机体数据集中的细胞类型,以及跨物种的细胞类型。

单细胞转录分析(scRNA-seq)已经成为一种对复杂动物组织中存在的多种细胞类型进行区分的有力手段。构建细胞图谱的计算步骤通常包括基于细胞基因表达谱的无监督聚类,然后在得到的聚类中注释已知的细胞类型。关于后一项任务,至少有四项挑战证明该领域的速度有限。

总的来说,这些挑战严重阻碍了对细胞类型理解的发展。为了应对这些挑战,我们设计了Garnett。Garnett四个部分组成。

A
Garnett算法概述。有关算法细节,请参见原文方法。简单地说,Garnett将使用标记基因定义细胞类型的标记文件作为输入,并构建一个可以包含细胞子类型的细胞类型层次结构。接下来,Garnett通过比较细胞类型代表细胞,在从树的根开始的每个节点上使用弹性网络多项式回归(elastic net multinomial regression)来训练分类器.最后,Garnett分层地对所有细胞进行分类,并可选地提供第二种扩展的以聚类结果进行分类。 B

10x公司100,000个细胞PBMC数据集的t-SNE图。第一个面板d彩色基于流式细胞仪分选的细胞类型,第二个面板是由cluster-agnostic彩色细胞类型根据Garnett分类,第三个面板是彩色的Garnett的cluster-extended类型、标签细胞基于分群构成。

C

(B)中数据的热图,基于FACS(行)的标签与集群不可知(左)和集群扩展(右)的细胞类型结果。颜色表示某个FACS类型的细胞百分比,每个类型由Garnett标记。

D

10X V2试剂应用于8000个来自健康捐赠者的pbmc。第一个面板是根据使用已知基因标记手动确定的类型着色的。第二个和第三个面板由加内特集群不可知和集群扩展细胞类型分配着色,分配是由根据面板(B)和(C)中显示的数据训练的分类器完成的。


E

与panel (C)类似,(D)中的数据热图。

TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。字词的重要性随着它在文件中出现的次数成正比增加,但同时会随着它在语料库中出现的频率成反比下降。TF-IDF加权的各种形式常被搜索引擎应用,作为文件与用户查询之间相关程度的度量或评级。除了TF-IDF以外,因特网上的搜索引擎还会使用基于链接分析的评级方法,以确定文件在搜寻结果中出现的顺序。



Nature Methods||Supervised classification enables rapid annotation of cell atlases

上一篇 下一篇

猜你喜欢

热点阅读