贝叶斯公式的联想到正则化

2018-09-27  本文已影响0人  奔向算法的喵

在进行算法岗面试的时候,你可能会遇到三门问题,可能会让你手推,要是对贝叶斯公式理解得不彻底,那么可能推了好久,都可能是错的。

一、简单看贝斯公式

1、回顾贝叶斯公式

后验概率 = \frac{似然度 * 先验概率} {证据}

后验概率 = (似然度 x 先验概率)/ 证据
下面我们定义两个事件x和y,以此来表示各个概率:
P(x|y)=\frac{P(y|x)P(x)}{P(y)} P(x): 先验概率,他是根据以往经验和分析得到的概率
P(y|x):似然度,就是在x发生的条件下,y发生的概率。
P(x|y):后验概率,也就是在y条件下,x发生的概率。

2、如何来理解?

在这里,我们可以把x当做结果来看,y当做原因来看,那么我们就知道:
P(x|y):意思就是从原因到结果。在原因y下面,结果x发生的概率是多少|
P(y|x):从结果推原因,可以理解为我们已经知道了结果,需要我们去反推原因。最大似然估计得意思就是你已经知道了结果,然后我们去从多个(原因1、原因2、...)里面找,到底是哪一个原因可以使得这个结果发生的可能性最大。不

3、三门问题

题目:参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门可赢得该汽车,另外两扇门后面则各藏有一只山羊。当参赛者选定了一扇门,但未去开启它的时候,节目主持人开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。问题是:换另一扇门会否增加参赛者赢得汽车的概率?如果严格按照上述的条件,即主持人清楚地知道,哪扇门后是羊,那么答案是会。不换门的话,赢得汽车的概率是1/3。换门的话,赢得汽车的概率是2/3。

求解过程如下:
最开始我们可以认为汽车在三个门之后的概率均为1/3。
首先,定义事件x1,x2,x3分别表示汽车在第一、二、三扇门之后的概率,这里就可以看成是先验概率,因为是根据经验来看的:
P({x}_{1})=P({x}_{2})=P({x}_{3})=\frac{1}{3}然后假设选手选择了门1。我们记主持人打开了门2为事件y,门2之后肯定是有羊的。那么就可以知道事件y发生的条件下,汽车在门1、2、3后面的条件概率是多少:
汽车在门1后面,那么主持人可以开门2和3,条件概率是1/2;
汽车在门2后面,那么主持人是不能打开门2的,则条件概率为0;
同理,可以知道汽车在门3后面,那么主持人打开门2的条件概率就是1。
p(y|{x}_{1})=\frac{1}{2} p(y|{x}_{1})=0 p(y|{x}_{1})=1
由全概率公式来进行计算证据P(y):
P(y)=P(y|{x}_{1})P({x}_{1})+P(y|{x}_{2})P({x}_{2})+P(y|{x}_{3})P({x}_{3})=\frac{1}{2} 最后根据贝叶斯公式来推导后验概率:
P({x}_{1}|y)=\frac{P(y|{x}_{1})P({x}_{1})}{P(y)}=\frac{{\frac{1}{2}}\times{\frac{1}{3}}}{\frac{1}{2}}=\frac{1}{3} P({x}_{2}|y)=\frac{P(y|{x}_{2})P({x}_{2})}{P(y)}=\frac{{0}\times{\frac{1}{3}}}{\frac{1}{2}}=0 P({x}_{3}|y)=\frac{P(y|{x}_{3})P({x}_{3})}{P(y)}=\frac{{{1}}\times{\frac{1}{3}}}{\frac{1}{2}}=\frac{2}{3}

到这里,应该就明白了,参赛者从选择第一扇门到换到第三扇门的话,更可能拿到汽车。

二、MLE与MAP的比较

MLE = 最大似然估计; MAP=最大后验概率
最大似然估计就是通过我们的观测值去估计我们概率分布的最好的参数值,这里的参数值就是theta,所以估计的过程就仅仅依赖我们的样本。
P(D|\theta)

MAP要做就是估计后验概率,不进依赖于我们样本,而且依赖于我们的先验概率(Prior),先验就可以理解成一个专家的意见。随着我们样本数量的增加,这个先验的作用是逐渐减小的。下面的公式通过了贝叶斯定理过来的:
P(\theta|D) \propto P(D|\theta)\cdot P(\theta)

下面的公式中,第一项我们就可以看做是极大似然估计项,然后后面的一项就可以看做的正则化项,正则就可以理解成一个先验。所以我们就能从贝叶斯的角度来理解正则化,theta的分布不同,得到了正则化项就不同。
\begin{eqnarray} arg \max P(\theta | D) &=& arg\max P(D|\theta)\cdot P(\theta) \\ &=& arg \max [\underbrace{logP(D|\theta)}_{MLE \space term} + \underbrace{logP(\theta)}_{正则 \space term} ] \end{eqnarray}

theta服从的分布类型 对应的正则化
高斯分布(正态分布) L2正则化
拉普拉斯分布 L1正则化

参考资料:
1、https://www.cnblogs.com/coshaho/p/9656334.html
2、

上一篇 下一篇

猜你喜欢

热点阅读