1.6 全概率公式与Bayes公式

2019-03-12  本文已影响0人  blueband21c

1.6 全概率公式与Bayes公式

例:一所学校里面有 60% 的男生,40% 的女生。男生总是穿长裤,女生则一半穿长裤一半穿裙子。有了这些信息之后我们可以容易地计算“随机选取一个学生,他(她)穿长裤的概率和穿裙子的概率是多大”,这个就是前面说的“正向概率”的计算。然而,假设你走在校园中,迎面走来一个穿长裤的学生(很不幸的是你高度近似,你只看得见他(她)穿的是否长裤,而无法确定他(她)的性别),你能够推断出他(她)是男生的概率是多大吗?


全概率公式

例:设女性患某种疾病的概率为0.3,男性患该病的概率为0.25,已知全国的男女比例为40:42​,求任何一人患该病的概率。

分析:记事件A为患该疾病,事件B_1为女性患该病,事件B_2为男性患该病,则
\begin{aligned} P(A)&=P(AB_1)+P(AB_2)=P(A|B_1)P(B_1)+P(A|B_2)P(B_2)\\ &=0.3\cdot\frac{40}{82}+0.25\cdot\frac{42}{82} \approx 0.274 \end{aligned}

全概率公式

定理:设\Omega为样本空间,若事件B_1,B_2,...,B_n满足

  1. B_1,B_2,...,B_n互不相容,即
    B _ { i } B _ { j } = \Phi \quad ( i \neq j , i , i , j = 1,2 , \cdots , n )
  2. B _ { 1 } \cup B _ { 2 } \cup \cdots \cup B _ { n } = \Omega

则称\{B_1,B_2,...,B_n\}为样本空间\Omega的一个分划,进而可得
\begin{aligned} P ( A ) & = P \left( A B _ { 1 } \cup A B _ { 2 } \cup \cdots \cup A B _ { n } \right) \\ & = P \left( A B _ { 1 } \right) + P \left( A B _ { 2 } \right) + \cdots + P \left( A B _ { n } \right) \\ & = P ( A | B _ { 1 } ) P \left( B _ { 1 } \right) + P ( A | B _ { 2 } ) P \left( B _ { 2 } \right) + \cdots + P ( A | B _ { n } ) P \left( B _ { n } \right) \end{aligned}
也即
P ( A ) = \sum _ { i = 1 } ^ { n } P ( A | B _ { i } ) P \left( B _ { i } \right)
该公式称为全概率公式(Law of Total Probability)


例:袋中有a只红球b只白球,先从袋中任取一球,记下颜色后放回,同时向袋中放入同颜色的球1​只,然后再从袋中取出一球。求第二次取到白球的概率。

解:记A=\{\text{第二次取到白球}\},B_1=\{\text{第一次取到白球}\},B_2=\{\text{第一次取到红球}\},显然B_1,B_2\Omega的一个分划,由全概率公式有
\begin{aligned} P ( A ) & = P ( A | B _ { 1 } ) P \left( B _ { 1 } \right) + P ( A | B _ { 2 } ) P \left( B _ { 2 } \right) \\ & = \frac { b + 1 } { a + b + 1 } \cdot \frac { b } { a + b } + \frac { b } { a + b + 1 } \cdot \frac { a } { a + b } \\ & = \frac { b } { a + b } \end{aligned}

思考:若第2次向袋中放入同颜色的球c​只,结果如何?
答:结果不变


例:有10个袋,其中甲袋二个,每袋中有红球、白球各2个;乙袋三个,每袋中有红球3个、白球2个;丙袋五个,每袋中有红球2个、白球3个.从十个袋中任取一袋,再从袋中任取一球,求取到白球的概率.

解:记B_1,B_2,B_3分别表示取到甲、乙、丙袋,A表示取到白球。由全概率公式
\begin{aligned} P ( A ) & = \sum _ { i = 1 } ^ { 3 } P ( A | B _ { i } ) P \left( B _ { i } \right) \\ & = \frac { 2 } { 10 } \cdot \frac { 2 } { 4 } + \frac { 3 } { 10 } \cdot \frac { 2 } { 5 } + \frac { 5 } { 10 } \cdot \frac { 3 } { 5 } = \frac { 13 } { 25 } \end{aligned}

问:如果将三个袋中的球混合在一起,然后任取一球,问取到白球的概率是否一样?
答:不同!全概率公式是概率的加权平均。


例:甲、乙两坦克的首发命中率均为0.8,经修正后的第二发命中率均为0.9, 敌目标被一发炮弹击中而被击毁的概率为0.2,被两发炮弹击中而击毁的概率为0.5,被三发炮弹击中必定被击毁. 在战斗中,甲、乙两坦克分别向敌同一目标发射了两发炮弹,求敌目标被击毁的概率.

解:设A表示目标被击毁,B_i表示目标被i发炮弹击中,i=1,2,3,4
\begin{array} { l } { P \left( B _ { 1 } \right) = 2 ( 0.8 \times 0.2 \times 0.05 \times 0.05 + 0.2 \times 0.2 \times 0.95 \times 0.05 ) = 0.0046 } \\ { P \left( B _ { 2 } \right) = 0.8 \times 0.8 \times 0.05 \times 0.05 + 0.2 \times 0.2 \times 0.95 \times 0.95 } \\ {\quad\quad\quad\quad +4 \times 0.8 \times 0.2 \times 0.95 \times 0.05 = 0.0681 } \\ { P \left( B _ { 3 } \right) = 2 ( 0.8 \times 0.8 \times 0.95 \times 0.05 + 0.8 \times 0.2 \times 0.95 \times 0.95 ) = 0.3496 } \\ { P \left( B _ { 4 } \right) = 0.8 \times 0.8 \times 0.95 \times 0.95 = 0.5776 } \end{array}
由全概率公式
\begin{aligned} P ( A ) & = \sum _ { i = 0 } ^ { 4 } P ( A | B _ { i } ) P \left( B _ { i } \right) \\ & = 0 . .2 \times 0.0046 + 0.5 \times 0.0681 + 1 \times 0.3496 + 1 \times 0.5776 \\ & = 0.96217 \end{aligned}


Bayes公式(Bayes's Theorem)

事件之间的联系

\left\{ B _ { 1 } , B _ { 2 } , \cdots , B _ { n } \right\}为样本空间的一个分划,且
P ( A ) > 0 , P \left( B _ { i } \right) > 0 \quad ( i = 1,2 , \cdots , n )
则由乘法公式
P \left( B _ { i } | A \right) P ( A ) = P ( A | B _ { i } ) P \left( B _ { i } \right) ( i = 1,2 , \cdots , n )
结合全概率公式P ( A ) = \sum _ { j = 1 } ^ { n } P ( A | B _ { j } ) P \left( B _ { j } \right),可以得到
P \left( B _ { i } | A \right) = \frac { P ( A | B _ { i } ) P \left( B _ { i } \right) } { \sum _ { j = 1 } ^ { n } P ( A | B _ { j } ) P \left( B _ { j } \right) } ( i = 1,2 , \cdots , n )
该公式称为Bayes公式

Bayes公式

Bayes公式体现了一种“因”和“果”的联系,很多时候不仅可以由因推果,也可以由果推因。

通常,事件A在事件B已发生的条件下发生的概率,与事件B在事件A已发生的条件下发生的概率是不一样的。然而,这两者是有确定的关系的,Bayes公式就是这种关系的陈述。
P(B_j|A)P(B_j)有时被称作标准似然度(standardised likelihood),这样一来Bayes定理可表述为:后验概率=标准似然度*先验概率

所谓的Bayes方法源于Tomas Bayes生前为解决一个“逆概”问题写的一篇文章,而这篇文章是在他死后才由他的一位朋友发表出来的。在Bayes写这篇文章之前,人们已经能够计算“正向概率”,如“假设袋子里面有N个白球,M个黑球,你伸手进去摸一把,摸出黑球的概率是多大”。而一个自然而然的问题是反过来:“如果我们事先并不知道袋子里面黑白球的比例,而是闭着眼睛摸出一个(或好几个)球,观察这些取出来的球的颜色之后,那么我们可以就此对袋子里面的黑白球的比例作出什么样的推测”。这个问题,就是所谓的逆概问题。

实际上,Bayes当时的论文只是对这个问题的一个直接的求解尝试,并不清楚他当时是不是已经意识到这里面包含着的深刻的思想。然而后来,Bayes方法席卷了概率论,并将应用延伸到各个问题领域,所有需要作出概率预测的地方都可以见到Bayes方法的影子,特别地,Bayes是机器学习的核心方法之一。这背后的深刻原因在于,现实世界本身就是不确定的,人类的观察能力是有局限性的(否则有很大一部分科学就没有必要做了——设想我们能够直接观察到电子的运行,还需要对原子模型争吵不休吗?),我们日常所观察到的只是事物表面上的结果,沿用刚才那个袋子里面取球的比方,我们往往只能知道从里面取出来的球是什么颜色,而并不能直接看到袋子里面实际的情况。


例(吸毒检测):假设一个常规的检测结果的敏感度与可靠度均为99\%,即吸毒者每次检测呈阳性(+)的概率为99\%。而不吸毒者每次检测呈阴性(-)的概率为99\%。从检测结果的概率来看,检测结果是比较准确的,但是Bayes定理却可以揭示一个潜在的问题。假设某公司对全体雇员进行吸毒检测,已知0.5\%的雇员吸毒。请问每位检测结果呈阳性的雇员吸毒的概率有多高?

分析:令D为雇员吸毒事件,N为雇员不吸毒事件,+为检测呈阳性事件。可得

根据上述描述,我们可以计算某人检测呈阳性时确实吸毒的条件概率P(D|+)
\begin{aligned} P(D |+) &=\frac{ P(+| D) P(D)}{P(+)} \\ &=\frac{P(+| D) P(D)}{P(+| D) P(D)+P(+| N) P(N)} \\ &=\frac{0.99 \times 0.005}{0.99 \times 0.005+0.01 \times 0.995} \\ &=0.3322 \end{aligned}
结论:尽管吸毒检测的准确率高达99%,但Bayes定理告诉我们:如果某人检测呈阳性,其吸毒的概率只有大约33%,不吸毒的可能性比较大。假阳性高,则检测的结果不可靠。

类似的情况:


例:某工厂的一、二、三车间都生产同一产品,产量分别占总产量的15%,80%,5%三个车间的次品率分别为2%,1%,3%.现从汇总起来的产品中任取一个,经检查是次品,判断该次品是哪个车间生产的可能性较大?

分析:这是“因—果”分析问题,故应用Bayes公式

解:记A表示取得次品,B_i表示取到的产品是i车间生产的,i=1,2,3,由全概率公式
\begin{aligned} P ( A ) & = \sum _ { j = 1 } ^ { 3 } P ( A | B _ { j } ) P \left( B _ { j } \right) \\ & = 0.02 \times 0.15 + 0.01 \times 0.80 + 0.03 \times 0.05 = 0.0125 \end{aligned}
再由Bayes公式
\begin{array} { l } { P \left( B _ { 1 } | A \right) = \frac { P ( A | B _ { 1 } ) P \left( B _ { 1 } \right) } { P ( A ) } = \frac { 0.02 \times 0.15 } { 0.0125 } = 0.24 } \\ { P \left( B _ { 2 } | A \right) = \frac { 0.01 \times 0.80 } { 0.0125 } = 0.64 } \\ { P \left( B _ { 3 } | A \right) = \frac { 0.03 \times 0.05 } { 0.0125 } = 0.12 } \end{array}
可见该次品是第二车间生产的可能性较大。

以上的分析过程也被称为Bayes推断


Bayes推断

假定B _ { 1 } , B _ { 2 } , \cdots , B _ { n }为导致试验结果的“原因”,称P \left( B _ { i } \right) ( i = 1,2 , \cdots , n )先验概率

若试验产生事件A,则要探讨事件发生的“原因”,称P(B_i|A)后验概率,称P(A|B_i)原因概率

例:假定B _ { 1 } , B _ { 2 } , \cdots , B _ { n }为各种疾病,应用统计方法可确定患病的概率(先验概率)
P \left( B _ { i } \right) \quad ( i = 1,2 , \cdots , n )
应用医学知识确定每种疾病下指标A(例如体温、脉搏、血象等)出现的概率(原因概率),应用Bayes公式,可以计算出该指标意味着某种疾病的概率(后验概率)
P \left( B _ { i } | A \right) \quad ( i = 1,2 , \cdots , n )
这正是大数据在医疗系统中应用的原理。


课后思考题:习题一:20,21,22,23,24


参见数学之美番外篇:平凡而又神奇的贝叶斯方法

Bayes公式与人工智能

例(拼写纠正

经典著作《人工智能:现代方法》的作者之一 Peter Norvig 曾经写过一篇介绍如何写一个拼写检查/纠正器的文章(原文在这里,这篇文章很深入浅出,强烈建议读一读),里面用到的就是Bayes方法。

首先,我们的问题是我们看到用户输入了一个不在字典中的单词,我们需要去猜测:“这个家伙到底真正想输入的单词是什么呢?”用刚才我们形式化的语言来叙述就是,我们需要求:
P(\text{我们猜测他想输入的单词} | \text{他实际输入的单词})
这个概率,并找出那个使得这个概率最大的猜测单词。

显然,我们的猜测未必是唯一的。比如用户输入: thew ,那么他到底是想输入 the ,还是想输入 thaw ?到底哪个猜测可能性更大呢?幸运的是我们可以用Bayes公式来直接算出它们各自的概率,我们不妨将我们的多个猜测记为 h_1, h2,...h 代表 hypothesis),它们都属于一个有限且离散的猜测空间 H (单词总共就那么多而已),将用户实际输入的单词记为 DD 代表 Data ,即观测数据),于是P(\text{我们的猜测1 }| \text{他实际输入的单词})可以抽象地记为:P(h_1 | D),类似地,对于我们的猜测2,则是 P(h_2 | D)。不妨统一记为:
P(h | D)
运用一次Bayes公式,我们得到:
P(h | D) = \frac{P(h) \times P(D | h)}{ P(D)}
对于不同的具体猜测 h_1, h_2, h_3,…P(D) 都是一样的,所以在比较 P(h_1 | D)P(h_2 | D) 的时候我们可以忽略这个常数。即我们只需要知道:
P(h | D) ∝ P(h) \times P(D | h)
这个式子的抽象含义是:对于给定观测数据,一个猜测是好是坏,取决于“这个猜测本身独立的可能性大小(先验概率,Prior )”和“这个猜测生成我们观测到的数据的可能性大小”(似然,Likelihood )的乘积。具体到我们的那个 thew 例子上,含义就是,用户实际是想输入 the 的可能性大小取决于 the 本身在词汇表中被使用的可能性(频繁程度)大小(先验概率)和 想打 the 却打成 thew 的可能性大小(似然)的乘积。

下面的事情就很简单了,对于我们猜测为可能的每个单词计算一下P(h) \times P(D | h) 这个值,然后取最大的,得到的就是最靠谱的猜测。

类似的方法可以用来处理自然语言的二义性问题,例如

The girl saw the boy with a telescope.

到底是 The girl saw-with-a-telescope the boy 这一语法结构,还是 The girl saw the-boy-with-a-telescope 呢?两种语法结构的常见程度都差不多(你可能会觉得后一种语法结构的常见程度较低,这是事后偏见,你只需想想 The girl saw the boy with a book 就知道了。当然,实际上从大规模语料统计结果来看后一种语法结构的确稍稍不常见一丁点,但是绝对不足以解释我们对第一种结构的强烈倾向)。那么到底为什么呢?

比价合理的解释是:如果语法结构是 The girl saw the-boy-with-a-telecope 的话,怎么那个男孩偏偏手里拿的就是望远镜——一个可以被用来 saw-with 的东东捏?这也忒小概率了吧。他咋就不会拿本书呢?拿什么都好。怎么偏偏就拿了望远镜?所以唯一的解释是,这个“巧合”背后肯定有它的必然性,这个必然性就是,如果我们将语法结构解释为 The girl saw-with-a-telescope the boy 的话,就跟数据完美吻合了——既然那个女孩是用某个东西去看这个男孩的,那么这个东西是一个望远镜就完全可以解释了(不再是小概率事件了)。

还有中文分词的问题,比如

给定一个句子(字串),如:

南京市长江大桥

如何对这个句子进行分词(词串)才是最靠谱的。例如:

  1. 南京市/长江大桥

  2. 南京/市长/江大桥

这两个分词,到底哪个更靠谱呢?

显然这个思想还可以推广到机器翻译的领域,甚至是图像识别垃圾邮件过滤

图像识别中的Bayes方法
上一篇下一篇

猜你喜欢

热点阅读