主成分分析丨数析学院

2017-06-30 本文已影响34人 Datartisan数据工匠

主成分分析是数据科学中常见的降维方法，本节将向大家介绍在 Python 中利用 Scikit-Learn 工具包进行主成分分析的方法与技巧。

首先导入相关的可视化库，并构建示例数据：

如上所示，第一组示例数据为一组样本量为200的随机的二维数组。接下来我们导入 Scikit-Learn 中用于主成分分析的 PCA 模块，构建一个主成分分析模型对象，并进行训练。在这次构建中，我们设定 PCA 函数的参数 n_components 为2，这意味这我们将得到特征值最大的两个特征向量：

模型训练完成后， components_ 属性可以查看主成分分解的特征向量：

explained_variance_ 属性可以中查看各个主成分的解释方差：

我们可以通过如下方式将主成分分析中的特征向量描绘出来，下图中向量的起点为样本数据的均值向量：

接下来我们重新构建模型，将参数 n_components 的值调整为1，并训练模型。

未完待续：课程内容较多，请复制链接通过电脑学习，获得最佳学习效果。 http://datacademy.io/lesson/144
更多课程和文章尽在微信号：「datartisan数据工匠」