统计-降维:线性判别分析LDA(Linear discrimin
2018-06-23 本文已影响74人
PriscillaBai
一. 什么是降维:有效信息的收集,无效信息的剔除
假如我们有1000个基因,想在坐标系中表现出来,就需要1000个维度。然而事实上我们不可能画那么多维度,这就需要降维了
![](https://img.haomeiwen.com/i9640232/0e10e6578439fcef.png)
二. 什么是LDA:
- LDA很像PCA,但是他致力于将已知种类的最大化分离
- 监督学习,每个样本是有类别的输出
- 在样本分类信息依赖均值而不是方差的时候,比PCA之类的算法较优
- LDA不适合对非高斯分布样本进行降维
- 降维最多降到类别数k-1的维数,如果我们降维的维度大于k-1,则不能使用LDA
三. LDA的原理是什么:
1. 画出一条新的坐标轴,将样本点映射到坐标轴上
![](https://img.haomeiwen.com/i9640232/4f31357c24d05a45.png)
![](https://img.haomeiwen.com/i9640232/98927fbc26b99d8e.png)
2. 让样本间的平均值差尽可能大,方差和尽可能小。就会避免图2中的情况
也就是说,样本离远一点,波动小一点
![](https://img.haomeiwen.com/i9640232/2305cc849c1c8117.png)
![](https://img.haomeiwen.com/i9640232/75a2b82c04f8b1ee.png)
3. 三个以上样本量,先找到一个中心点,再分割平面,最后变成n-1维度
![](https://img.haomeiwen.com/i9640232/663e070a07af586b.png)
四. PCA与LDA熟好熟坏?:不能一概而论
-
当样本信息依赖均值时,LDA更好
image.png
-
当样本信息依赖方差时,PCA更好
部分图出自CSDN博客:https://www.cnblogs.com/pinard/p/6244265.html