最小二乘法和极大似然估计

2020-05-20  本文已影响0人  richard_123

可能看到这两个词汇,感觉没有太大关系,接下来先拆开逐一分析,再来看下两者之间的联系。

数据描述

对数据先进行一定的描述,假设我们有N个样本,\{(x_{1},y_{1}),(x_{2},y_{2}),...,(x_{N},y_{N})\},每个x是p维的向量,w是要求参数。我们利用矩阵或者向量形式进行描述,向量形式的一般用列向量来表示。如下所示:
X = \left( {\matrix{ {{x_{11}}} & \ldots & {{x_{1p}}} \cr \vdots & \ddots & \vdots \cr {{x_{N1}}} & \cdots & {{x_{Np}}} \cr } } \right)Y = \left( \matrix{ {y_1} \hfill \cr {y_2} \hfill \cr \vdots \hfill \cr {y_N} \hfill \cr} \right)W = \left( \matrix{ {w_1} \hfill \cr {w_2} \hfill \cr \vdots \hfill \cr {w_p} \hfill \cr} \right)

最小二乘法LSE

概率角度

最小二乘法的核心思想是通过构造一条曲线来拟合原始数据,预测函数为f(x)=w^{T}x(这里省略了常数项b),极小化函数L = \sum\limits_{i = 1}^N {||{w^T}{x_i} - {y_i}|{|^2}},我们对该函数利用矩阵来进行表示,一步步推导如下:
\eqalign{ & L = \sum\limits_{i = 1}^N {||{w^T}{x_i} - {y_i}|{|^2}} \cr & = ({w^T}{x_i} - {y_i})*{({w^T}{x_i} - {y_i})^T} \cr & = ({w^T}{x_1} - {y_1},{w^T}{x_2} - {y_2},...,{w^T}{x_N} - {y_N})*{(...)^T} \cr & = ({W^T}{X^T} - {Y^T})*{(...)^T} \cr & = ({W^T}{X^T} - {Y^T})*(XW - Y) \cr & = {W^T}{X^T}XW - {W^T}{X^T}Y - {Y^T}XW + {Y^T}Y \cr & = {W^T}{X^T}XW - 2{W^T}{X^T}Y + {Y^T}Y \cr}
公式中第四行转到第五行是利用转置性质,第六行到第七行是因为第六行中中间两项通过维度分析(1xp * pxN * Nx1)可知他们乘出来结果为一个实数且相同因此合并在一起。
对W进行求导,可得到2X^{T}XW-2X^{T}Y(利用转置求导性质),令其等于0,并左乘(X^{T}X)^{-1},得到W=(X^{T}X)^{-1}X^{T}Y

几何角度

还可以利用第二种思路来理解LSE,上述第一种角度下预测函数是f(x)=w^{T}x,可以理解为这是在样本角度考虑,我们可以从X维度p考虑,令f(x)=x^{T}\beta,用矩阵表示就是X\beta(转置消失可以从维度上考虑,前面是1xp * px1,现在是Nxp * px1),从几何角度上理解,f(x)是p维向量空间的一个线性组合,理想情况下

无标题.png
如果拟合非常成功,则y会等于f(x),y是在p维空间上的,但是由于数据有随机性或者存在噪声,所以y不可能在上面,那y与f(x)的距离就理解成y与该平面的距离,也即是垂直下来的法向量,用表示(向量的减法),而法向量与平面上X垂直,根据,用矩阵表示就是(多了个转置也是可以从维度上去看,pxN * Nx1 = px1 所以等式右边0是个向量,表示一共p维都为0),将其拆开再乘以逆矩阵,可得。

极大似然估计MLE

极大似然估计这里没有作太多解释,主要原理是利用概率累乘的log-likelihood,公式如下:
\eqalign{ & L = \log P(Y|X) \cr & = \log \prod\limits_{i = 1}^N {P({y_i}|{x_i})} \cr & = \sum\limits_{i = 1}^N {\log P({y_i}|{x_i})} \cr}
额外注意下,极大似然估计通过求导等于0的方式计算出来是有偏的,比实际值偏小。

二者联系

上述讲到,y是存在随机性的或者说有噪声,我们假设噪声\varepsilon服从高斯分布N(0,{\sigma ^2}),那么y表示为y = w^{T}x + \varepsilon,所以条件概率P(y|w,x)是服从高斯分布的,期望为w^{T}x,方差为\sigma ^2(根据正态分布性质),因此我们可以构造出MLE方程
\eqalign{ & L = \sum\limits_{i = 1}^N {\log P({y_i}|{x_i})} \cr & = \sum\limits_{i = 1}^N {\log [{1 \over {\sqrt {2\pi } \sigma }}} \exp - {{{{(y - {w^T}x)}^2}} \over {2{\sigma ^2}}}] \cr & = \sum\limits_{i = 1}^N {\log } {1 \over {\sqrt {2\pi } \sigma }} - {{{{(y - {w^T}x)}^2}} \over {2{\sigma ^2}}} \cr}
可以发现如果我们要极大化此概率,相当于极小化{{{(y - {w^T}x)}^2}},也即是LSE,所以我们可以下结论,当噪声服从高斯分布时,LSE和MLE是等价的。

来源

以上推导均来自b站视频推导做的总结

上一篇 下一篇

猜你喜欢

热点阅读