仰望星空

如何理解条件概率

2019-08-11  本文已影响15人  战神猴哥

上一篇文章,我们聊到了彩票中的数学期望,在生活中,数学期望可以帮助我们做很多重要决策。今天,我们继续聊一个对生活帮助很大的概率学知识——条件概率

说到条件概率,许多人上学的时候都觉得不好理解,尤其是公式比较绕,记忆起来很困难。其实这个公式是不需要死记硬背的,理解了原理之后,可以非常自然的把公式写出来。

先看一个例子。

小明是个有志青年,他听了王健林的一个亿小目标后,决心干一番事业。经过一番调研后,他决定做生意。他估计有30%的可能性坚持一年,但只要坚持一年,就有60%的可能性能做成功。现在问题来了,小王想知道自己选择做生意,有多大可能性能成功。

分析一下这个问题可知,小王选择做生意这条路,首先要坚持一年,再坚持一年的基础上还要努力奋斗直到成功。

为了便于用数学语言表达。我们把做生意坚持一年记为事件A,把做生意成功记为事件B,实际上我们要求的是事件A和B同时发生的概率,我们把它记为P(AB)

再看已知条件,有30%的可能坚持一年,说明P(A)=0.3, 如果坚持了一年就有60%的可能性成功,这句话可以理解为,当事件A已经发生的前提下,事件B发生的概率为0.6, 我们用条件概率表示P(B|A)=0.6

那么P(AB)如何求呢。我们用大白话解释下。 要想两个事件均满足,可以先满足一个,再在满足这个的前提下,满足另一个。也就是把两者相乘, 写成数学公式就是:
{P(AB) = P(A) * P(B|A)}

如果你觉得难以理解,我们可以用统计的思想帮助理解概率。假设我们克隆了10000个小明一起做这件事。根据P(A) = 0.3, 有3000个小明做生意坚持了一年, 还有7000个被淘汰了。在这3000个小明中,又有3000 * P(B|A) = 3000 * 0.6 = 1800个小明最终成功了。因此小明做生意成功的概率是 1800/10000=0.18, 这个数值等于P(A)*P(B|A)

如此一来,我们就理解了条件概率公式。有了这个公式,我们不仅可以正着用还可以反着用。比如职业分析师小张发现有18%做生意的人能成功,有30%的人做生意能坚持一年。他就可以用条件概率公式推算出,在做生意坚持一年的条件下, 有60%的可能性能成功。

又或者,工程师小亮想转行做生意,他考察了下市场得到两个数据:有18%的人做生意能成功,但只要坚持一年,就有60%的人做生意能成功。他可以立刻得出结论只有30%的人能坚持一年,而不是得出鸡汤式的结论“坚持就是胜利”。

这就是数学的魅力。

回到前面的公式, 如果A和B是完全不相关的两个事情,那么这个公式会变得更简洁。比如我们把事件B改成了明天会下雨。很显然,不管你做生意能不能坚持一年,和明天是否下雨都毫无关系,用数学预言来表示,就是P(B|A) = P(B), 进一步可以得到P(AB)=P(A)*P(B), 我们把这样的事件A和B称之为独立事件。

接下来,我们让这个问题更复杂一些。

小明发现即使做生意坚持不到一年,积累的经验也有可能帮助自己成功,但是这时候概率会低一些,只有30%, 小明现在想知道自己选择做生意,成功的概率是多少。

现在我们引入了做生意坚持不到一年这个事件,用字母C来表示该事件。很显然要么能坚持一年,要么坚持不到一年,也就是说事件A和事件C是互斥的,P(C) = 1 - P(A) = 0.7 。 而在坚持不到一年的条件下,最终成功的概率是0.3, 也就是说 P(B|C) = 0.3

现在我们要求小明成功的概率P(B), 很自然的想法就是把坚持一年和坚持不到一年,这两个分支的成功概率相加。 因为你无论通过哪个分支,都可以成功,他们是的关系。见下图:


在做生意的前提下,有两条路径可以到达胜利的彼岸,当然应该把他们加起来计算。

那么这道题的答案应该就是:
P(B)=P(A)*P(B|A) + P(C)*P(B|C) = 0.3 * 0.6 + 0.7 * 0.3 = 0.39

再结合数学期望,就能更准确的帮助小明做出决策了。那么如果再多出来一个分支怎么处理呢。 比如说小明找来了一个分析大师,对该问题分析的更加详细。
大师给出了坚持0-3个月,坚持3-12个月,坚持12-36个月,坚持36个月以上,这4种分支的成功概率。求小明成功的概率。

其实无非就是计算麻烦了点,方法上还是把不同的分支相加。那我们再抽象些,有N个分支,进入每个分支的概率分别是\upsilon_1, \upsilon_2, ... , \upsilon_n,这时候就可以写出数学公式了。
P(B) = \sum_{i}^{N} P(\upsilon_i) * P(B|\upsilon_i)
这个公式叫做全概率公式

看,这个公式使我们写出来的,而不是默出来的,如果平时你的思路很清晰,是不需要背诵那么多数学公式的。

然而,条件概率在生活中的应用还远不止上面提到的场景,我们再变换下。

假设一家媒体公司想收集100个做生意一年内失败,但最终走向成功的人,了解下他们的辛酸历程。然而他们手上只有若一堆成功者的联系方式。公司要排除记着从这一堆成功者理挑选出满足要求的人,他们大约需要走访多少人呢。
(有了条件概率数据,公司就知道应该安排多少记者,这对老板的决策有很大帮助)

为了解决这个问题,我们实际上是需要求P(C|B), 也就是在事件B发生的条件下, 事件C发生的概率。 用大白话来说,就是知道了结果,想求它属于哪个分支

如何求呢, 显然我们可以用“该分支的概率” 除以 “所有分支的概率之和”, 也就是:
P(C|B) = \frac{P(BC)}{P(BC)+P(BA)}
等式右边都和B有关,我们把它们都换成条件概率公式。
P(C|B) = \frac{P(B|C)*P(C)}{P(B|C)*P(C)+P(B|A)*P(A)}

把概率数据代入公式就可以求出答案了。那如果按照之前推导全概率公式的方式抽象, 将问题分为N个分支,进入每个分支的概率分别是\upsilon_1, \upsilon_2, ... , \upsilon_N,把C认为是其中一个分支\upsilon_t, 那么我们可以写出公式:
P(\upsilon_t|B) = \frac{P(B|\upsilon_t)*P(\upsilon_t)}{\sum_{i}^{N} P(B|\upsilon_i) * P(\upsilon_i)}

这就是大名鼎鼎的贝叶斯公式


贝叶斯公式是一个非常有用的公式,而且往往能得出反直觉的结论。比如下面这个例子:

某市举办肝癌普查活动,已知肝癌的患病率是0.0004,仪器的准确率是99%。小王在普查中被查出阳性,请问小王患病的概率是多少?

分析一下这道题,可知一个人要么是肝癌患者,要么是健康人。这是两个分支。现在已知普查结果是阳性,那我们实际要求的是在普查结果为阳性的条件下,属于肝癌患者分支的概率是多少。
把属于肝癌患者记为事件A, 属于健康人记为事件B,检查结果为阳性记为事件C,利用贝叶斯公式,可得:
P(A|C) = \frac{P(A) * P(C|A)}{P(A)*P(C|A)+P(B)*P(C|B)}
带入数据,P(A) = 0.0004, P(B) = 1-0.0004=0.9996, P(C|A) = 0.99, P(C|B) = 0.01,
可得:
P(A|C) = \frac{0.0004* 0.99}{0.0004* 0.99+0.9996*0.01}\approx0.035

也就是说,即便仪器准确率99%,即便你查出阳性,也不要担心,因为大概率是仪器错了,是不是有点匪夷所思,但这就是数学。
不过看了这篇文章的小伙伴可千万要搞清楚实际情况,这个肝癌问题的前提是患病概率是0.0004, 如果你本身就抽烟喝酒,熬夜,再加上你出现了一定的临床症状,那概率可就远不止0.0004了,如果再查出阳性,你真正患病的概率可就很大了。

上一篇下一篇

猜你喜欢

热点阅读