a10.Andrew-ML08-无监督、PCA

2018-08-25 本文已影响15人 Xylia_Yang

Clustering

01. Unsurpervised Learning Introduction

无监督学习算法是训练样本没有标签的分类算法。

02. K-means algorithm

聚类分析是在数据中发现数据对象之间的关系，将数据进行分组，组内的相似性越大，组间的差别越大，则聚类效果越好。
过程：
选择K个点作为初始质心
repeat
将每个点指派到最近的质心，形成K个簇
重新计算每个簇的质心
until 簇不发生变化或达到最大迭代次数

03. Otimization Objective

一些定义：

样本Xi现在被分配的聚类中心的序号

第k个聚类中心

样本Xi被分配的聚类中心点

优化函数：每个样本到他的聚类中心点聚类平均值最小

04. 如何选择K（聚类种类）

多少情况人为判断，还有一个“肘部法则”，选择肘关节处的聚类数目。

Dimensionality

01. Data Compression

将数据从高维降到低维。

02. Visualization

可以将多维数据降低到2-3维进行可视化

Principal Component Analysis （主成分分析法）

01. PCA

PCA:主成分分析方法是一种常见的数据压缩算法。在该过程中，数据从原来的坐标轴转换到新的坐标系，以方差最大的方向作为坐标轴的方向，因为最大方差给出了数据最主要的数据特征。
主要是找到一个低维的子空间，使得投影误差的平方和达到最小。

02. PCA算法

过程:
去除平均值
计算协方差矩阵
计算协方差矩阵的特征值和特征向量
将特征值排序
保留前N个最大的特征值对应的特征向量
将数据转换到上面得到的N个特征向量构建的新空间中（实现了特征压缩）
上述降维过程，首先根据数据矩阵的协方差的特征值和特征向量，得到最大的N个特征值对应的特征向量组成的矩阵，可以称之为压缩矩阵；得到了压缩矩阵之后，将去均值的数据矩阵乘以压缩矩阵，就实现了将原始数据特征转化为新的空间特征，进而使数据特征得到了压缩处理。

当然，我们也可以根据压缩矩阵和特征均值，反构得到原始数据矩阵

Applying PCA

01. 原始数据的重构

将被压缩的数据还原到原来的维度

02. 选择主要成分的数量

使得平均投影误差和平均数据误差的比值小于一个概率。
算法：
使k从1到不断增加直到满足要求。
优化算法：（没懂）

03. PCA的使用建议

压缩数据以减小内存和提高算法效率
可视化数据，k=2 or k=3
对于处理过度拟合并不好，过度拟合直接用正规化就行

上一篇下一篇

猜你喜欢

热点阅读