如何理解条件概率
上一篇文章,我们聊到了彩票中的数学期望,在生活中,数学期望可以帮助我们做很多重要决策。今天,我们继续聊一个对生活帮助很大的概率学知识——条件概率
说到条件概率,许多人上学的时候都觉得不好理解,尤其是公式比较绕,记忆起来很困难。其实这个公式是不需要死记硬背的,理解了原理之后,可以非常自然的把公式写出来。
先看一个例子。
小明是个有志青年,他听了王健林的一个亿小目标后,决心干一番事业。经过一番调研后,他决定做生意。他估计有30%的可能性坚持一年,但只要坚持一年,就有60%的可能性能做成功。现在问题来了,小王想知道自己选择做生意,有多大可能性能成功。
分析一下这个问题可知,小王选择做生意这条路,首先要坚持一年,再坚持一年的基础上还要努力奋斗直到成功。
为了便于用数学语言表达。我们把做生意坚持一年记为事件A,把做生意成功记为事件B,实际上我们要求的是事件A和B同时发生的概率,我们把它记为。
再看已知条件,有30%的可能坚持一年,说明, 如果坚持了一年就有60%的可能性成功,这句话可以理解为,当事件A已经发生的前提下,事件B发生的概率为0.6, 我们用条件概率表示
那么如何求呢。我们用大白话解释下。 要想两个事件均满足,可以先满足一个,再在满足这个的前提下,满足另一个。也就是把两者相乘, 写成数学公式就是:
如果你觉得难以理解,我们可以用统计的思想帮助理解概率。假设我们克隆了10000个小明一起做这件事。根据, 有3000个小明做生意坚持了一年, 还有7000个被淘汰了。在这3000个小明中,又有个小明最终成功了。因此小明做生意成功的概率是 , 这个数值等于。
如此一来,我们就理解了条件概率公式。有了这个公式,我们不仅可以正着用还可以反着用。比如职业分析师小张发现有18%做生意的人能成功,有30%的人做生意能坚持一年。他就可以用条件概率公式推算出,在做生意坚持一年的条件下, 有60%的可能性能成功。
又或者,工程师小亮想转行做生意,他考察了下市场得到两个数据:有18%的人做生意能成功,但只要坚持一年,就有60%的人做生意能成功。他可以立刻得出结论只有30%的人能坚持一年,而不是得出鸡汤式的结论“坚持就是胜利”。
这就是数学的魅力。
回到前面的公式, 如果A和B是完全不相关的两个事情,那么这个公式会变得更简洁。比如我们把事件B改成了明天会下雨。很显然,不管你做生意能不能坚持一年,和明天是否下雨都毫无关系,用数学预言来表示,就是, 进一步可以得到, 我们把这样的事件A和B称之为独立事件。
接下来,我们让这个问题更复杂一些。
小明发现即使做生意坚持不到一年,积累的经验也有可能帮助自己成功,但是这时候概率会低一些,只有30%, 小明现在想知道自己选择做生意,成功的概率是多少。
现在我们引入了做生意坚持不到一年这个事件,用字母C来表示该事件。很显然要么能坚持一年,要么坚持不到一年,也就是说事件A和事件C是互斥的, 。 而在坚持不到一年的条件下,最终成功的概率是, 也就是说
现在我们要求小明成功的概率, 很自然的想法就是把坚持一年和坚持不到一年,这两个分支的成功概率相加。 因为你无论通过哪个分支,都可以成功,他们是或的关系。见下图:
在做生意的前提下,有两条路径可以到达胜利的彼岸,当然应该把他们加起来计算。
那么这道题的答案应该就是:
再结合数学期望,就能更准确的帮助小明做出决策了。那么如果再多出来一个分支怎么处理呢。 比如说小明找来了一个分析大师,对该问题分析的更加详细。
大师给出了坚持0-3个月,坚持3-12个月,坚持12-36个月,坚持36个月以上,这4种分支的成功概率。求小明成功的概率。
其实无非就是计算麻烦了点,方法上还是把不同的分支相加。那我们再抽象些,有N个分支,进入每个分支的概率分别是, , ... , ,这时候就可以写出数学公式了。
这个公式叫做全概率公式。
看,这个公式使我们写出来的,而不是默出来的,如果平时你的思路很清晰,是不需要背诵那么多数学公式的。
然而,条件概率在生活中的应用还远不止上面提到的场景,我们再变换下。
假设一家媒体公司想收集100个做生意一年内失败,但最终走向成功的人,了解下他们的辛酸历程。然而他们手上只有若一堆成功者的联系方式。公司要排除记着从这一堆成功者理挑选出满足要求的人,他们大约需要走访多少人呢。
(有了条件概率数据,公司就知道应该安排多少记者,这对老板的决策有很大帮助)
为了解决这个问题,我们实际上是需要求P(C|B), 也就是在事件B发生的条件下, 事件C发生的概率。 用大白话来说,就是知道了结果,想求它属于哪个分支
如何求呢, 显然我们可以用“该分支的概率” 除以 “所有分支的概率之和”, 也就是:
等式右边都和B有关,我们把它们都换成条件概率公式。
把概率数据代入公式就可以求出答案了。那如果按照之前推导全概率公式的方式抽象, 将问题分为N个分支,进入每个分支的概率分别是, , ... , ,把C认为是其中一个分支, 那么我们可以写出公式:
这就是大名鼎鼎的贝叶斯公式。
贝叶斯公式是一个非常有用的公式,而且往往能得出反直觉的结论。比如下面这个例子:
某市举办肝癌普查活动,已知肝癌的患病率是0.0004,仪器的准确率是99%。小王在普查中被查出阳性,请问小王患病的概率是多少?
分析一下这道题,可知一个人要么是肝癌患者,要么是健康人。这是两个分支。现在已知普查结果是阳性,那我们实际要求的是在普查结果为阳性的条件下,属于肝癌患者分支的概率是多少。
把属于肝癌患者记为事件A, 属于健康人记为事件B,检查结果为阳性记为事件C,利用贝叶斯公式,可得:
带入数据,, , , ,
可得:
也就是说,即便仪器准确率99%,即便你查出阳性,也不要担心,因为大概率是仪器错了,是不是有点匪夷所思,但这就是数学。
不过看了这篇文章的小伙伴可千万要搞清楚实际情况,这个肝癌问题的前提是患病概率是0.0004, 如果你本身就抽烟喝酒,熬夜,再加上你出现了一定的临床症状,那概率可就远不止0.0004了,如果再查出阳性,你真正患病的概率可就很大了。