主成分分析丨数析学院
2017-06-30 本文已影响34人
Datartisan数据工匠
主成分分析是数据科学中常见的降维方法,本节将向大家介绍在 Python 中利用 Scikit-Learn 工具包进行主成分分析的方法与技巧。
首先导入相关的可视化库,并构建示例数据:
![](https://img.haomeiwen.com/i1818544/d722d486d451db9c.png)
![](https://img.haomeiwen.com/i1818544/b02e0f1ddd296de0.png)
如上所示,第一组示例数据为一组样本量为200的随机的二维数组。接下来我们导入 Scikit-Learn 中用于主成分分析的 PCA 模块,构建一个主成分分析模型对象,并进行训练。在这次构建中,我们设定 PCA 函数的参数 n_components 为2,这意味这我们将得到特征值最大的两个特征向量:
![](https://img.haomeiwen.com/i1818544/6898378c123030b5.png)
模型训练完成后, components_ 属性可以查看主成分分解的特征向量:
![](https://img.haomeiwen.com/i1818544/fa7b42b622dbb77c.png)
explained_variance_ 属性可以中查看各个主成分的解释方差:
![](https://img.haomeiwen.com/i1818544/06a3b7a430cd4327.png)
我们可以通过如下方式将主成分分析中的特征向量描绘出来,下图中向量的起点为样本数据的均值向量:
![](https://img.haomeiwen.com/i1818544/651d237a590a5286.png)
![](https://img.haomeiwen.com/i1818544/9c40a6e3f8f600d2.png)
接下来我们重新构建模型,将参数 n_components 的值调整为1,并训练模型。
未完待续:课程内容较多,请复制链接通过电脑学习,获得最佳学习效果。 http://datacademy.io/lesson/144
更多课程和文章尽在微信号:「datartisan数据工匠」
![](https://img.haomeiwen.com/i1818544/b1bc875738bdc15b.png)