机器学习西瓜书 Day12 降维与度量学习（上）

2018-05-21 本文已影响0人皇家马德里主教练齐达内

p225 - p232
今天依然平平淡淡
5.21 上午3:31
但吃完小龙虾太晚了。。
今天少看了几页，明天补上

第十章降维与度量学习

KNN是一种常用的监督学习方法。
基于k个邻居的信息：投票、取平均

懒惰学习的典型代表：因为没有显式的训练过程。
相反，急切学习：训练阶段就对样本进行学习处理。

显然K是一个重要的参数。取不同值，结果会不同。

泛化错误率不超过贝叶斯最优分类器的错误率的两倍。

上一节的讨论是基于样本足够“密”的
实际上当维数高时，要满足密采样需要样本将是天文数字。

事实上，在高维情形下出现的数据样本稀疏，距离计算困难等问题，是所有机器学习算法共同面临的严重障碍，称为“维数灾难”。

解决：降维

MDS算法。p227-229
p229 伪码

需要距离矩阵。

对降维算法的评估，通常是比较降维前后的性能。若提高则认为降维起到了作用。
若能降到2-3维，甚至能通过可视化技术来直观判断效果。

最常用的一种降维方法

考虑这样一个问题：如何用一个超平面来对所有样本进行恰当表达？
1）最近重构性，即所有点到这个超平面的距离足够近
2）最大可分性，样本点在这个超平面上的投影尽可能分开。

数学推理：p230-231

发现基于这两个思想，优化目标是等价的。

PCA算法见p231 图10.5
过程（降为d'维）：
1.对所有样本进行中心化（样本相加为0）
2.计算协方差矩阵
3.对协方差矩阵作特征值分解
4.去最大的d'个特征值对应的特征向量。

PCA舍弃了一些维度上的信息，但舍弃是必须的。
一方面，舍弃后能使密度增大，这是降维的动机。
另方面，能去噪声。

有时，线性是不行的