单细胞测序技术单细胞测序数据分析、矩阵运算

单细胞笔记5-tSNE和UMAP

2021-07-06  本文已影响0人  江湾青年

降维

降维顾名思义就是把数据或特征的维数降低,一般分为线性降维和非线性降维,比较典型的如下:


流形学习

流形学习(Manifold Learning)听名字就觉得非常深奥,涉及微分流行和黎曼几何等数学知识。当然,想要了解流形学习并不需要我们一行一行的去推导公式,通过简单的例子也能够有一个直观的认识。
简单来说,地球表面就是一个典型的流形,在流形上计算距离与欧式空间有所区别。例如,计算南极与北极点之间的距离不是从地心穿一个洞计算直线距离,而是沿着地球表面寻找一条最短路径,这样的一条路径称为测地线。如下面所示的三幅图

流形与测地线 其中第一张图为原始数据点分布,虚线是欧式距离,蓝色实线是沿着流形的真实测地线距离。第二张图是在原始数据点的基础上基于欧式距离构造的kNN图(灰色线条,下面还会具体介绍kNN图),红色实线表示kNN图中两点之间的最短路径距离。第三张图是将流形展开后的效果,可以看到,kNN图中的最短路径距离(红色实线)要略长于真实测地线距离(蓝色实线)。
在实际应用中,真实测地距离较难获得,一般可以通过构造kNN图,在kNN图中寻找最短路径距离作为真实测地线距离的近似。

tSNE

tSNE是一种《比 较 简 单》的机器学习算法,可以用以下四个公式表示


tSNE算法

(1)定义了高维空间中任意两点之间观测距离的高斯概率,满足对称性规则。Eq。
(2)引入了困惑的概念作为一个约束,确定最优σ为每个样本。
(3)声明了低维嵌入中点对之间距离的学生t分布。t分布是为了克服嵌入低维时的拥挤问题。
(4)给出了K-L散度损失函数,将高维概率投影到低维概率上,并给出了梯度下降优化中使用的梯度的解析形式。


t分布 看看上面的图,我想说的是 t分布应该提供全局距离信息,因为它们将高维空间中相距较远的点推到低维空间中更远的点。然而,这种良好的意愿被成本函数(KL-divergence)的选择所扼杀。

tSNE的缺点

tSNE参数的意义:


UMAP

UMAP ,全称Uniform Manifold Approximation and Projection,统一流形逼近与投影,是基于曼和几何代数据的理论框架结构构建的。在处理大数据集时,UMAP优势明显,运行速度块,占用内存小。Etienne Becht等人2019年在Nature Biotechnology上发表的一篇文章将其应用在生物学数据上并分析了UMAP在处理单细胞数据方面的应用和优势。
UMAP应该说是目前最好的降维算法了,现在的10X单细胞的降维图都选择了UMAP,因为其能最大程度的保留原始数据的特征同时降低特征维数。

UMAP与tSNE的区别

tSNE和UMAP基本上都包含两个步骤:

UMAP在处理大数据时具有独特的优势

除了运行速度快,内存占用小等特点,UMAP在处理细胞学数据时还有一个大的优势,就是可以反映细胞群体之间分化的连续性和组织性。 tSNE和UMAP

对同一组数据分别进行tSNE和UMAP降维,该数据为多达30万个从8种不同组织富集得到的T细胞和NK细胞的样本,并使用Phenograph聚类把细胞分为6大类,每种颜色代表一种细胞。从图中可以看出,UMAP和tSNE都可以较好地把不同类别的细胞分开。但tSNE倾向于把相同细胞群划分为更多的群,如图显示,黑色圈中CD8 T细胞,在tSNE结果中,群数更多,距离更远。

UMAP参数


参考

tSNE的详细算法:https://www.jianshu.com/p/0f93e3a7ae29
UMAP的详细算法:https://www.jianshu.com/p/812bb054e1d5
tSNE与UMAP对比的一个很棒的网站:https://pair-code.github.io/understanding-umap

上一篇 下一篇

猜你喜欢

热点阅读