tSNE和UMAP的区别

2020-04-08 本文已影响0人小潤澤

这一篇是我的学习笔记，先附上学习链接：https://mp.weixin.qq.com/s/qkbc1vz-ERHzGp8gfLiVsg

首先，这是两种降维的scRNA-seq的降维图

那么它们有什么区别呢？

首先，在高维空间内，描述两个点（两个细胞）的距离不一样，tSNE采取的是“概率算法”，即把两个点的距离转换成概率，若 i 与 j 这两个点距离比较近的话，它所对应的概率较大；而UMAP采取的是传统的欧式距离。
这里的x表示的高维空间的距离

计算出距离以后，tSNE对距离进行了标准化，而UMAP没有
这里的标准化是指对于tSNE，不同的cluster，两个点之间概率（相似度）是不一样的，哪怕它们是聚为一类的，类与类内的两点间距离也是不同的
换句话说就是，由于每一群样本点的疏散程度不一样，也就是有的类内点与点之间的距离比较大，有的类内点与点之间的距离比较小，这样不利于将高维空间的距离映射到低维空间

可参考：
https://www.jianshu.com/writer#/notebooks/42008597/notes/59107870/preview

在计算σ的时候（计算距离所需）
在此之前，我们先简单介绍下perplexity和香农熵

perplexity

perplexity反应的是细胞的临近个数，当perplexity越大，细胞分布越紧密，一般perplexity = （细胞数-1）/ 3

香农熵

香农熵是用于描述细胞的混乱程度的物理量，什么意思呢？
每两个细胞之间都会存在一定的距离，香农熵描述的是细胞间的距离层差不齐的程度

那么回到我们这幅图

UMAP用i点与其他点距离的总和代替tSNE的perplexity中的香农熵

最后就是降维以后，在低维空间的距离校正方法不同，tSNE采用的是t分布进行校正，而UMAP采用的是与最小距离比较，从而确定表达式

这里的y指的是低维空间的两点（两个细胞）间的距离，

通过高维空间的距离到低维空间的映射，那么低维距离就可以进行可视化

总结

高维数据和低维数据转换距离分布时，UMAP没有进行标准化；（省时）

计算σ时，UMAP用邻近个数代替tSNE的perplexity；（省时）

UMAP不直接用t分布拟合低维数据，添加参数动态调整，但是接近t分布；

UMAP的损失函数用Cross-Entropy(CE)代替tSNE的KL散度；（全局）

UMAP用随机梯度下降（SGD）代替tSNE的梯度下降法（GD）。（省时省内存）

tSNE和UMAP的区别

perplexity

香农熵

总结

猜你喜欢

热点阅读