机器学习 西瓜书 Day12 降维与度量学习(上)
2018-05-21 本文已影响0人
皇家马德里主教练齐达内
p225 - p232
今天依然平平淡淡
5.21 上午3:31
但吃完小龙虾太晚了。。
今天少看了几页,明天补上
第十章 降维与度量学习
10.1 KNN
KNN是一种常用的监督学习方法。
基于k个邻居的信息:投票、取平均
懒惰学习的典型代表:因为没有显式的训练过程。
相反,急切学习:训练阶段就对样本进行学习处理。
显然K是一个重要的参数。取不同值,结果会不同。
泛化错误率不超过贝叶斯最优分类器的错误率的两倍。
10.2 低维嵌入
上一节的讨论是基于样本足够“密”的
实际上当维数高时,要满足密采样需要样本将是天文数字。
事实上,在高维情形下出现的数据样本稀疏,距离计算困难等问题,是所有机器学习算法共同面临的严重障碍,称为“维数灾难”。
解决:降维
MDS算法。p227-229
p229 伪码
需要距离矩阵。
对降维算法的评估,通常是比较降维前后的性能。若提高则认为降维起到了作用。
若能降到2-3维,甚至能通过可视化技术来直观判断效果。
10.3 主成分分析(PCA)
最常用的一种降维方法
考虑这样一个问题:如何用一个超平面来对所有样本进行恰当表达?
1)最近重构性,即所有点到这个超平面的距离足够近
2)最大可分性,样本点在这个超平面上的投影尽可能分开。
数学推理:p230-231
发现基于这两个思想,优化目标是等价的。
PCA算法见p231 图10.5
过程(降为d'维):
1.对所有样本进行中心化(样本相加为0)
2.计算协方差矩阵
3.对协方差矩阵作特征值分解
4.去最大的d'个特征值对应的特征向量。
PCA舍弃了一些维度上的信息,但舍弃是必须的。
一方面,舍弃后能使密度增大,这是降维的动机。
另方面,能去噪声。
10.4 核化线性降维
有时,线性是不行的