降维——线性判别分析与主成分分析
2020-02-20 本文已影响0人
乔大叶_803e
同样作为线性降维的方式,PCA是非监督的降维算法,而LDA是有监督的算法。
虽然他俩在应用方面是有区别的,但是从数学本质出发,还是能发现他俩有很多的共性的。
LDA是扩展到了多类高维的情况。
假设现在有N类,并且需要最终将特征降维到D维上,因此我们要找到一个d维投影超平面使得投影后满足LDA目标
最大化类间间距并最小化类内间距
三类样本的分布情况三类样本投影中心为
的中心点我
的中心点我
的中心点我
如果把全局散度定义为类内散度与类间散度之和也就是
首先从目标出发,PCA选择的是投影后数据方差最大的方向,由于它是无监督的,因此PCA假设的方差越大,信息量越多,用主成分来表示数据可以去除多余的维度,达到降维的目的
而LDA选择的是投影后累呗方差最小,类间方差最大的方向。用到了类别信息,找到具有数据中具有判别类的维度,使得数据在这些方向上投影后,不同类别尽可能区分开。
在语音识别中,需要提取语音信号的时候,可以是用PCA先进行降维,过滤掉一些固定频率的背景噪声。
如果需要从这段音频中区分是属于哪个人的话,就需要使用LDA降维,使每个人的声音得到区分。