2019-10-20PCA降维算法理解

2019-10-21 本文已影响0人 bcl_hx

多变量的大数据含丰富的信息，但也增加数据分析工作量。更重要的是在很多情形下，许多变量之间可能存在相关性，从而增加问题的复杂性。
找到合理方法，减少分析的指标同时，尽量减少原指标包含信息的损失，以达到对所收集数据进行全面分析的目的。
由于各变量之间存在一定的相关关系，因此可以考虑将关系紧密的变量变成尽可能少的新变量，使这些新变量是两两不相关的，那么就可以用较少的综合指标分别代表存在于各个变量中的各类信息。PCA就属于这类降维算法。

PCA概述

1.用途：通过线性变换将原始数据变换为一组各维度线性无关，用于提取数据的主要特征分量，主要用于高维数据的降维。
2.目标：提取最有价值的信息(基于方差)——低维中能够更好概括数据。
3.问题：降维后的意义？
降维前：数据有实际的物理意义。
降维后：矩阵变换，导致物理意义也随着消失，要的是结果而不是过程。根据Eigenvalues从大到小排序，使前几个维度能够解释大部分方差变异。
4.属于无监督问题：即便不知道每一类数据标签是什么，也可以用PCA。不是基于标签而是基于方差。