第五章 无监督学习:数据降维
2019-04-29 本文已影响0人
etheon
主成分分析PCA
1.寻找方差最大维度
2.用PCA降维
线性判别分析LDA
1.双重标准
考虑标签,最大化类间样本的方差,最小化类内样本的方差。
多维标度法MDS
1.保留距离信息的线性变换
降维前后样本之间的距离尽量保持一致
2.MDS的重要变形
非计量MDS
PCA可以看作CMDS使用欧式公式计算原始样本距离时的一种特殊情况
流形学习之Isomap
流形是局部具有欧几里得性质的空间,通常嵌入比该局部空间更高维的外围非欧几里得空间中。
地球本身是一个非欧几里得空间。
流形学习的目的是将嵌入在外围空间中的流形提取到与其内蕴空间同构的新的低维空间中。
测地线距离:沿着流形内蕴空间测量的距离。
流形学习之局部嵌入
局部嵌入是一簇只考虑相互邻近样本关系的模型。
1.局部线性嵌入LLE
一种以保持每个样本与邻近样本之间距离作为降维目标的流形学习方法。
选择近邻-建立权重系数矩阵-降维
2.拉普拉斯特征映射LE
LE围绕保持拉普拉斯的矩阵进行降维
3.谱聚类
谱聚类=拉普拉斯映射+K-means聚类
流形学习之t-SNE
T分布随机近邻嵌入:使用概率方法建模的流形学习降维方法。
1.用Kullback0Leiber衡量分布相似度
用高斯分布表达高位空间样本的亲缘性
用T分布表达低维空间样本亲缘性
以两个分布的Kullback-Leiber散度作为优化目标
2.为什么是t-分布
流形学习的拥挤问题