UMAP原理学习

2022-05-28  本文已影响0人  Norahd

通常,我们一般通过绘制点图来可视化来观测数据的特征间数据的相关性与简单簇与离群点,该方法对二维的数据或三维的数据点适用;但是对于包含大于3个特征的数据集,想要把所有的特征轴都绘制出来是不现实的。

简单二维数据可视化

所以对于分析多特征的数据集,我们常用的方法就是降维:

UMAP算法通过计算样本点之间的相似性分数来实现低维可视化样本点间邻近关系。

第一步 计算高纬空间中样本点的距离(distance);

第二步 计算每个样本点与其它样本点之间相似性分数添加缩放曲线。

每个样本与其它样本点的相似性评分只计算与当前样本点x个最近邻居的相似性评分,其它邻居的相似性评分统一划为0,其中离每个样本点最近的邻居的相似性评分总为1。
在这一步,无论在距离上相距多远或多近的样本点,每个样本点与其它样本点之间的相似性评分之和总等于log2(期望邻居点个数x),并且能够保证每个点都与数据集中至少一个样本点相似,目的只是为了确定哪些样本之间是近邻关系。



所有样本点之间的相对相似性分数通过以下公式实现对称化:


第三步 基于谱图论初始化出低维图像,然后矫正样本点之间的距离,使得高纬相似的样本在低维图像上更加邻近。

待学习更新...

https://www.youtube.com/watch?v=eN0wFzBA4Sc
https://www.youtube.com/watch?v=jth4kEvJ3P8

上一篇 下一篇

猜你喜欢

热点阅读