大数据,机器学习,人工智能医学学习笔记数据分析

论文 | 通过非线性随机邻近嵌入自动分类细胞表达

2018-06-12  本文已影响1人  Kofe_

原文:Automatic classification of cellular expression by nonlinear stochastic embedding (ACCENSE)
作者:Karthik Shekhar, Petter Brodin, Mark M.Davis and Arup K.Chakraborty.
来源:Proceedings of the National Academy of Sciences (PNAS), 2014, 111(1): 202-207.
转载:简书不支持公式渲染,便于阅读可参考 原博文

摘要

质谱流式细胞技术 (Mass cytometry) 能够在单细胞水平上测试近 40 种不同的蛋白质,即提供前所未有的多维信息水平。由于各式各样的细胞种群数据集的复杂性,要收集有用的生物学知识对计算工具也有新的要求。回顾之前的聚类方法,即对于不同功能的细胞识别是基于细胞表征相似性来实现区分的。当然,经典方法存在一定局限性,例如单细胞分辨率的损失;经典方法需要预知簇中的对象数量 (本文中指细胞亚群的规模数量)。

则该论文引入 ACCENSE (Automatic classification of cellular expression by nonlinear stochastic embedding) 高维单细胞数据分析工具:

再有,本论文将 ACCENSE 应用于 35 参数的质谱流式细胞技术,检测 CD8+ T 细胞的数量 (数据来自于特定的无病原和无菌小鼠),并将细胞分层到表型亚群中。即对于具体的聚类算法、降维算法中,特定的符号名称会以具体的对象名称替代。

正文

背景介绍

聚类算法

质谱流式细胞技术产生的高维数据,以具有生物学意义的方式解释是具有挑战性的。然而,很多聚类工具是基于细胞的蛋白表达相似性进行细胞分类的,例如:

降维算法

同样,降维算法以蛋白质表达相似性,把空间组织的细胞群在低维空间聚集成不同的细胞亚群。

识别细胞亚群

相关图表

图 1-1 ACCENSE 应用于质谱高维数据

(A) 质谱细胞计数数据集样本的图示。行对应于不同的细胞,而列对应于测量其表达 (细胞表面抗原和细胞内蛋白) 的不同标记的金属螯合抗体。每一元组对应于指示每个标记的表达水平的质荷比变换值 (反双曲函数)。(C) 来自SPF B6 小鼠的 CD8+ T 细胞的 2D t-SNE 图谱。每个点代表来自训练集的一个细胞 (M = 18304),且数据点是通过对原始数据集进行下采样得到。(D) 通过使用基于内核密度变换 ($K_{\gamma}(y),{,},\gamma = 7$),将细胞的局部概率密度嵌入 (C) 的复合图像。并使用标准的峰值检测算法进行识别局部最大值,在二维密度图表示表型亚群的中心。

图 1-2 展示了峰值随着 $\gamma$ 的增加而变化

附录

1 t-SNE 中的概率

$p_{i,j}$ 概率

基于蛋白质相似性,设 $p_{j|i}$ (i,j = 1, 2, ..., M) 表示细胞 i 将选择细胞 j 作为其最近邻的概率 ( $p_{j|i}$ 越大,$x^{(i)} 和 x^{(j)}$ 越近 ):

$$
p_{j|i} = \frac{
exp({-d_{i,j}^2} / {
2\sigma_i^2})
}{
\sum_{k \neq i} exp({-d_{i,k}^2} / {
2\sigma_i^2})
}, d_{i,j} = ||x^{(i)} - x^{(j)}||_2
\tag{3}
$$

对于概率 $p_{j|i}$ 的几点说明:

$q_{i,j}$ 概率

对于低维度下的 ${y_i}$,在原始的 SNE 算法 $^{[7]}$ 中 Hinton 和 Rowers 引用高斯核函数 (Gaussian Kernels) 定义 $q_{i,j}$,但在低维表达中发现了 拥挤问题

拥挤问题:就是说各个簇聚集在一起,无法区分。譬如,有一高维度数据在降维到 10 维下可以有很好的表达,但是降维到两维后无法得到可信映射。具体情况是,10 维中有数个点之间两两等距离的,在二维下就无法得到可信的映射结果。
进一步说明,假设一个以数据点 $x^i$ 为中心,半径为 r 的 m 维球(三维空间就是球),其体积是按 $r^m$ 增长的,假设数据点是在 m 维球中均匀分布的,我们来看看其他数据点与 $x^i$ 的距离随维度增大而产生的变化。

t-SNE 减轻了拥挤问题,即使用更加偏重长尾分布的方式来将距离转换为概率分布 $^{[8]}$,故有 $q_{i,j}$:

$$
q_{i,j} = \frac{
(1 + \Delta_{i,j}2){-1}
}{
\sum_{k \neq i} (1 + \Delta_{i,k}2){-1}
}, \Delta_{i,j} = ||y^{(i)} - y^{(j)}||_2
\tag{5}
$$

同样地,对于概率 $q_{i,j}$ 的几点说明:

2 数值梯度下降法

$$
\frac{
\partial D_{KL}({p_{i,j}} | {q_{i,j}})
}{
\partial_{y_t}^{(i)}
} = 4 \sum_j \frac{
(p_{i,j} - q_{i,j})
}{
(1 + ||y_t^{(i)} - y_t{(j)}||2)
}
(y_t^{(i)} - y_t^{(j)})
\tag{6}
$$

不足

参考

[1] Maaten L, Hinton G. Visualizing data using t-SNE [J]. Journal of machine learning research, 2008, 9(Nov): 2579-2605.
[2] Cantor H, Simpson E, Sato V L, et al. And functional studies of peripheral t-cells binding different amounts of fluorescent anti-thy 1.2 (theta) Antibody using a fluorescence--activated cell sorter (FACS) [J]. 1975.
[3] Bendall S C, Nolan G P, Roederer M, et al. A deep profiler's guide to cytometry [J]. Trends in immunology, 2012, 33(7): 323-332.
[4] Qiu P, Simonds E F, Bendall S C, et al. Extracting a cellular hierarchy from high-dimensional cytometry data with SPADE [J]. Nature biotechnology, 2011, 29(10): 886.
[5] Bendall S C, Simonds E F, Qiu P, et al. Single-cell mass cytometry of differential immune and drug responses across a human hematopoietic continuum [J]. Science, 2011, 332(6030): 687-696.
[6] Van Der Maaten L, Postma E, Van den Herik J. Dimensionality reduction: a comparative [J]. J Mach Learn Res, 2009, 10: 66-71.
[7] Maaten L, Hinton G. Visualizing data using t-SNE [J]. Journal of machine learning research, 2008, 9(Nov): 2579-2605.
[8] Chrispher. t-SNE 完整笔记 [OL]. www.datakit.cn. 2017.
[9] Jacobs R A. Increased rates of convergence through learning rate adaptation[J]. Neural networks, 1988, 1(4): 295-307.

上一篇 下一篇

猜你喜欢

热点阅读