数据挖掘(异常检测)——线性方法

2021-05-18  本文已影响0人  EL33

DataWhale 组队学习 2021.05 组队学习系列笔记三

异常检测(线性方法)大纲

补充内容:
一、PCA实现流程,设有 m 条 n 维数据:

S1. 将原始数据按列组成 n 行 m 列矩阵 X;
S2. 将 X 的每一行进行零均值化,即减去这一行的均值;
S3. 求出协方差矩阵 C=\frac{1}{m}XX^\mathsf{T}
S4. 求出协方差矩阵的特征值及对应的特征向量;
S5. 将特征向量按对应特征值大小从上到下按行排列成矩阵,取前 k 行组成矩阵 P;
S6. Y=PX 即为降维到 k 维后的数据。

二、sklearn实现及参数说明

  1. 函数原型及参数说明

相关包 import sklearn.decomposition
常用类 import sklearn.decomposition.PCA

其中,
sklearn.decomposition.PCA(n_components=None, copy=True, whiten=False)

除了这些输入参数外,有两个PCA类的成员值得关注。第一个是explained_variance_,它代表降维后的各主成分的方差值。方差值越大,则说明越是重要的主成分。第二个是explained_variance_ratio_,它代表降维后的各主成分的方差值占总方差值的比例,这个比例越大,则越是重要的主成分。

  1. PCA常用方法
上一篇 下一篇

猜你喜欢

热点阅读