1.贝叶斯定理

2016-08-14  本文已影响283人  JRlu

一、概念   

  在开始讲贝叶斯定理前,先对概率论的几个定理有所了解,那就是:随机变量、联合分布、边缘分布和条件分布。

随机变量X:

       概率论中的随机变量不同于往常提到的变量,一般用大写的X表示。在概率论中,可以把随机变量X当作一种函数,那么简单的理解函数的作用就是映射了。在这个随机变量函数中,其定义域可认为是实验的结果,值域根据人为而设定。

     举个例子,在某次投掷骰子的实验中,骰子为六面体(1、2、3、4、5、6),那么其结果就为这六个值中的某个值,我们可认为这些值就是随机变量函数的定义域。现在建立一个映射关系,假如取 y=x,那么随机变量X的结果为5(假设这次投掷的结果为5)。假设映射关系为取实验结果值得偶数,那么X就为0或者1.

     随机变量X 取值为a的概率 一般表示为P(X=a)或者P X(a),或者X取值小于或等于a的概率:P(X<=a).


联合分布:

     随机变量的分布是指X取某些值的概率,因此可以把分布理解为概率!!!(往后中会有很多地方提到),使用P(X)表示随机变量X的分布。

     联合分布是指多于一个变量的分布,此时的概率是由所有的变量共同决定的。这里要区分一点:P(X=a,Y=b)表示的是X取a、Y取b时的概率,而P(X,Y)表示X、Y的联合分布。

     举个两个随机变量决定的联合分布栗子~:  还是以投掷6面骰子为例,随机变量X的映射关系取y=x,也就是直接把实验结果的值作为随机变量的结果X=1、2、3、4、5、6.  而Y为投掷一枚硬币的随机变量,取值为0和1:,两者的联合分布为:

       这个表第一个1/12可表示为:在X=1的情况下,Y=0 的概率为1/12.

边缘分布:

      边缘分布是通过联合分布定义的。给点随机变量X和Y的联合分布P(X,Y),可以定义X或者Y的边缘分布,指的是某个随机变量自身的概率分布。随机变量的边缘分布通过将联合分布中的其他随机变量相加而得到:

      其中,val(Y)表示随机变量Y的取值范围。

条件分布:

   条件分布指出了在当其他随机变量已知的情况下某个特定随机变量的分布。例如:随机变量X在随机变量Y=b的情况下取值为a的条件概率(条件分布)可以定义为:

    基于贝叶斯定理,P(X=a| Y=b)可写为:

�    这个往后会提到,这里先放着哈哈。~~~。当然,对于更多随机变量的联合分布的情况下,求某一个条件分布也是同理:

讲完了上述的概念,先来道题目练练~~(这是从百度知道上找来的):

解:用独立性及边缘分布与联合分布的关系计算.



二、贝叶斯定理

       Bayes定理在机器学习中应用很多。我第一次接触该定理应该是今年2月份,在推导深度信念神经网络(DBN)时看到的,当时也是一知半解,什么能量函数,先验概率,归一化因子等等,后来查了查资料,发现里面的内容还真多。。。。不得不提的是朴素贝叶斯算法和EM算法曾入选“数据挖掘十大算法”,很难想象贝叶斯是一位传教士。

       回归正题,贝叶斯定理无非就是一个条件概率公式:

        其中,P(A)称为先验(piror)概率; P(B|A)是随机变量B相对于A的条件(class-conditional probability)概率,或者称为似然(likelihood)概率; P(B)叫做归一化因子; P(A|B)叫做后验概率。

举例1:饼干问题

       假设现在有两碗饼干,碗1中有30个曲奇和10个巧克力,碗2中有20个曲奇和20个巧克力,如果现在随机从其中一个碗中随机抽取一个饼干,发现抽到的是曲奇,请问该曲奇来自碗1的概率是多少?用公式来描述此问题的话,就是求P(碗1|曲奇)的数值是多少.那么根据贝叶斯公式,我们知道P(碗1|曲奇)=P(曲奇|碗1)*P(碗1)/P(曲奇),根据题设,P(曲奇|碗1)=30/50=3/4,P(碗1)=1/2,P(曲奇)=(20+30)/80=5/8,因此P(碗1|曲奇)=3/4 * 1/2 / 5/8 = 3/5,这样我们就成功地运用了贝叶斯方法解决了这个问题.

举例2:MontyHall问题(转移概率,HMM中用到)

       假设有三个门,每个门后面都有一个奖品,其中一个奖品是一辆车,另外两个奖品是很没有价值的东西.奖品是由Monty随机布置的,游戏的规则是谁抽中了车子的那个门,谁就可以拥有车.现在你选择了门1,另外两个门分别记做2和3,在你打开门之前,Monty打开了2和3中的其中一扇门3,并且袒露了那扇门后面并没有车子,请问你现在是否要更换注意?或者还是坚持门1.即求出此时坚持1门或者更换的概率分别是多少.这里我们依然可以选择使用贝叶斯分析方法来分析这个问题.

我们用D1 D2 D3分别代表Monty打开1 2 3门的事件,用C1 C2 C3分别代表车子在1 2 3门后面的事件,我们知道Monty打开2个门的先验概率都是1/2.即P(D2)=P(D3)=1/2;现在假设车子在1门后面,则Monty打开3门的概率是P(D3|C1)=1/2,由于Monty永远都不会打开那扇藏有车子的门,因此假如车子藏在3门后面则Monty打开3门的概率为0,即P(D3|C3)=0;最后,如果车子藏在2门后面,则Monty打开3门的概率为1,即P(D3|C2)=1;因此,我们计算出P(C1|D3)=P(C1)*P(D3|C1)/P(D3)=1/3 * 1/2 / 1/2 = 1/3;P(C2|D3) = P(C2) * P(D3|C2) / P(D3) = 1/3 * 1 / 1/2 = 2/3; 因此,更换决策的话,概率为2/3.


参考文献:

1.机器学习预备知识之概率论(上)

2.说说重要的贝叶斯公式吧

~~~,大家仔细看的话发现很多都不是原创的(真是尴尬),哈哈,欢迎大家拍砖

上一篇下一篇

猜你喜欢

热点阅读