降维算法二:LDA (Linear Discriminant A
2018-01-30 本文已影响11人
尼小摩
LDA模式分类
线性辨别模型(Z=b1x1+b2x2)是一条直线方程,通过这条直线方程我们可以在散点图中发现可以将两组数据进行区分的数据点。并对新产生的数据进行分类和预测。如下图所示,我们通过线性辨别模型获得一条可以区分不同类别的直线。其中X1是企业经营时间,X2是拖延还款天数。而b1和b2是我们所要求的模型系数。

方差,协方差,协方差矩阵
在求线性辨别模型中的b1和b2时,需要用到协方差矩阵,因此我们先来简单介绍与协方差有关的一些概念和计算方法。
均值
首先是均值,均值的计算很简单。但要了解协方差和方差的概念,就必须先从均值开始。以下是均值的计算公式。均值表示一组数的集中程度。

方差
方差与均值正好相反,用来表示一组数的离散程度,也就是一组数中每一个数到均值的距离。由于均值通常是一组数的中心点,为了避免左右两侧的数据由于正负相互抵消无法准确的表示平均距离。我们先对距离取平方在进行汇总,汇总的结果就是方差的值。方差开平方就是标准差。

协方差
协方差是在方差的基础上扩展得到的,从计算公式中就能看出来。
协方差与方差有两个最大的区别:
1.方差是用来描述一组数的;而协方差是用来描述两组数的。
2.方差用来描述一组数的离散程度,也就是离均值的距离,而协方差是用来描述两组数直接的联系的。


协方差是一种用来度量两个随机变量关系的统计量。
- 当cov(X, Y)>0时,表明 X与Y 正相关;
- 当cov(X, Y)<0时,表明X与Y负相关;
- 当cov(X, Y)=0时,表明X与Y不相关。
协方差矩阵
协方差只能处理两组数(两维)间的关系,当要计算的数据多于两组(多维)时,就要用到协方差矩阵。协方差矩阵其实是分别计算了不同维度之间的协方差。通过下图可以发现协方差矩阵是一个对称的矩阵,对角线是各个维度上的方差。
