萌新的机器学习机器学习与数据挖掘

极大似然估计和贝叶斯估计

2017-10-06  本文已影响358人  初七123

'参数估计'学习总结

最大似然估计

回顾一下贝叶斯定理

似然函数

最大似然估计就是要用似然函数取到最大值时的参数值作为估计值

这是一个关于 Θ 的函数,求解这个优化问题通常对求导,得到导数为0的极值点。该函数取得最大值是对应的的取值就是我们估计的模型参数。

举个例子

假设一个暗箱中有白球、黑球共两个,虽然不知道具体的颜色分布情况、但是知道这两个球是完全一样的。现在有放回地从箱子里抽了 2 个球,发现两次抽出来的结果是 1 黑 1 白,那么该如何估计箱子里面球的颜色?从直观上来说似乎箱子中也是 1 黑 1 白会比较合理(频率估计概率),下面我们就来说明“1 黑 1 白”这个估计就是极大似然估计

在这个问题中,模型的参数 Θ 可以设为从暗箱中抽出黑球的概率,样本 Xi 可以描述为第 i 次取出的球是否是黑球;如果是就取 1、否则取 0。这样的话,似然函数就可以描述为

直接对它求极大值(虽然可行但是)不太方便,通常的做法是先将似然函数取对数之后再进行极大值的求解


从而可知

由于 X1 + X2 = 1,所以得

亦即应该估计从暗箱中抽出黑球的概率是 50%;进一步地、既然暗箱中的两个球完全一样,我们应该估计暗箱中的颜色分布为 1 黑 1 白

最大后验估计(MAP)

最大后验估计与最大似然估计相似,不同点在于估计 Θ 的函数中允许加入一个先验

也就是说此时不是要求似然函数最大,而是要求由贝叶斯公式计算出的整个后验概率最大,即

可以看到,从形式上、极大后验概率估计只比极大似然估计多了一项

不过它们背后的思想却相当不同。MAP 估计的一个显著优势在于它可以引入所谓的“先验知识”,这正是贝叶斯学派的精髓。当然这个优势同时也伴随着劣势:它要求我们对模型参数有相对较好的认知、否则会相当大地影响到结果的合理性。

举个例子

以扔硬币的伯努利实验为例子,n 次实验的结果服从二项分布,参数为 p,即每次实验事件发生的概率,不妨设为是得到正面的概率。

其似然函数如下


伯努利实验似然函数

假设先验概率分布服从Beta 分布

Beta分布概率密度函数,这里用到了伽马函数

我们取

这样先验分布在0.5处取得最大值,现在我们来求解MAP估计函数的极值点,同样对p求导数我们有


把 Beta 分布代入 MAP 对参数 p 求导 最终结果

如果我们做20次实验,出现正面12次,反面8次,那么根据MAP估计出来的参数p为16/28 = 0.571
如果采用最大似然估计则为0.6(基于频率估计)
MAP 考虑了先验分布所以得到不同的结果

贝叶斯估计

贝叶斯估计是在MAP上做进一步拓展,此时不直接估计参数 Θ 的值,而是允许参数服从一定概率分布

回顾一下贝叶斯公式

现在不是要求后验概率最大,而是估计 Θ 的概率分布。
所以要求出 p(X),这里用全概率展开p(X)

那么如何用贝叶斯估计来做预测呢?如果我们想求一个值 x' 的概率,可以用下面的方法

已知样本满足某种概率分布,但参数未知。贝叶斯估计把待估参数看成符合某种先验概率分布的随机变量。对样本进行观测的过程就是把先验概率密度转化为后验概率密度,这样就利用样本信息修正了对参数的初始估计值。

总结

从MLE到MAP再到贝叶斯估计,对参数的表示越来越精确,得到的参数估计结果也越来越接近0.5这个先验概率,越来越能够反映基于样本的真实参数情况。

参考

https://zhuanlan.zhihu.com/p/25001282
http://blog.csdn.net/bitcarmanlee/article/details/52201858
http://blog.csdn.net/yangliuy/article/details/8296481

上一篇下一篇

猜你喜欢

热点阅读