(八)从优化的角度解释PCA
Let A be a given matrix and be where satisfies and ;The Minimum of is obtained when is an matrix of orthogonal eigenvalues associated to the q largest eigenvalues of and .
我们试图从优化的角度切入PCA:
优化问题有3要素:
1.目标函数:
2.决策变量:
3.约束条件:
这就涉及一些问题,我们的目的是什么,这点很明显可以从目标函数中看出。先看个特殊情况,如果Z已知,我们将Z投影到正交向量构成的空间中,我们的目的是让数据矩阵A与正交变换后的Z对齐。
细致看下这个特殊情况:
因为在上述结果的最后,前两项是已知常数;所以我们实际上是要最大化 我们可以对做奇异值分解。即:
令;R,V,Q都是正交矩阵,所以B也是正交矩阵。所以:
最后一个不等式成立的原因是是个正交矩阵,因为所有正交矩阵都是经过单位化的,所以对角线元素都小于1。等号成立的条件是是单位矩阵且。即:
时,我们的目标函数最小,相当于Z转一个角度能与原来矩阵对齐。而旋转变换的正交矩阵取决于奇异值分解出的两个正交的特征向量矩阵。
这说明我们只要知道了降维后的,那么我们总能找到一个变换,使得在变换后尽可能的还原的信息。
那么问题来了,就是我们所要求的东西,我们不可能提前知道,那么我们怎么求满足条件,且尽可能还原的信息的和呢?现在我们得直面这个优化问题了。
我们可以靠拉格朗日乘子法将原来的有约束的优化问题转为无约束的优化问题,最后求导后找出满足条件的其中一组解就可以了。
所以
对各个决策变量求导:
令(1),(2),(3)导数等于0:
然而我们的目的是找出其中一个解就行,也就是找到其中一个V,所以我们将带入(2)中:
令,那么:即可以通过对特征分解后取前个最大的特征值得到。这是其中一个解,也是我们想要的结果,即直接可以通过数据矩阵的信息得出我们的正交变换;使得数据在保证信息尽可能完整的情况下降维。
(矩阵求导方面可以参考这里)