数据分析最基础的思维:贝叶斯定理,手把手教你学会
贝叶斯定理是数据分析中非常重要的应用,但是因为贝叶斯定理过于晦涩难懂,很多人敬而远之,今天老李就用最通俗的话来教给你!
要讲清楚贝叶斯定理,就先要理解条件概率、先验后验、全概率这些概念
诶诶先别走啊,这次我们不讲公式,直接举个例子说明:
(1)我最近10天内,有2天迟到,那么请问我今天迟到的概率是多少?
很显然,迟到的事件发生概率是2/10,也就是
P(迟到)
=1/5
=20%
这就叫做先验概率
(2)今天早上堵车了,请问我迟到的概率是多少?
注意,这里已经不同于上个例子,“迟到”是一种事实结果,而造成迟到的原因可能是“堵车”,那么堵车就是一种影响事实结果的条件,这种情况下就属于条件概率,即
P(A | B)
它的公式也比较简单:
比如我近10天遭遇了5次堵车,其中2次迟到,那么今天早上如果又堵车了,我迟到的概率就是40%,用公式计算就是:
P(迟到 | 堵车)
=P(堵车且迟到) / P(堵车)
=0.2/0.5
=0.4
最简单的例子就是抛硬币,我抛一个硬币问你正面朝上的概率是多少,你肯定说是1/2
这个结论其实是建立在了“我们都知道硬币正反面概率一样”或者“我们都知道这是个正常硬币”的条件下,这不过这个条件经常被我们隐去而已
而一般情况下,条件概率中的“条件”都是我们已知的,由因及果就是先验的条件概率,也就是知道了原因、求结果的概率:
比如,堵车是造成迟到发生的原因,我们求因为堵车而发生迟到的概率,即:
P(迟到 | 堵车)
(3)今天我又迟到了,那么是因为我早上堵车的概率是多少?
跟先验概率相反,我们由结果推导出原因的概率就叫做后验概率,也就是依据得到"结果"信息所计算出的原因发生的概率,即:
P(堵车 | 迟到)
这里“迟到”这个结果反而变成了条件概率当中的条件,这在我们生活中是非常常见的情况,比如“我中午拉肚子了,是因为昨天吃火锅的概率是多大?”
(4)我迟到的原因只可能是堵车、闹钟坏了、拉肚子三种情况中的一种,且这三种情况不可能同时发生,那么我今天如果又迟到了,造成的原因是什么的概率最大呢?
这个问题已经无法用抛硬币来进行解决了,因为传统频率主义是无法解决实际问题的
换言之抛硬币问题只存在于理论中,实际生活中某个事件的发生条件或结果一定是复杂的
比如迟到这个事件,我们已经知道了引起迟到的所有条件,且这些条件都是相互独立且互斥的
那么想要求出迟到的概率,就可以将这个复杂事件拆分成几个条件概率,比如迟到的概率可以拆分成:
P(迟到)
=P(堵车且迟到)+P(闹钟坏了且迟到)+P(拉肚子且迟到)
=P(堵车)*P(迟到 | 堵车)+P(闹钟坏了)*P(迟到 | 闹钟坏了)+P(拉肚子)*P(迟到 | 拉肚子)
如果有多个事件,就可以用公式这么进行表达:
这就是全概率公式,简单来说就是用来进行复杂事件概率求算的。
那么回到问题,想要求哪个原因造成的迟到概率最大,比如先求迟到的原因概率,就可以根据条件概率和全概率进行推导:
P(堵车 | 迟到)
=P(堵车且迟到)/ P(迟到)
=P(堵车)*(迟到 | 堵车) / P(堵车)*P(迟到 | 堵车)+P(闹钟坏了)*P(迟到 | 闹钟坏了)+P(拉肚子)*P(迟到 | 拉肚子)
用公式表达就是
如果你看到这里,那么恭喜你你已经成功推导出了贝叶斯定理的公式
其中不难发生,这个公式的分母其实就是全概率公式,也就是P(B),所以贝叶斯公式又可以写成下面这个形式:
其核心思想是当你不能准确知悉一个事物的本质时,你可以依靠与事物特定本质相关的事件出现的多少去判断其本质属性的概率。
贝叶斯的应用
如果你看到一个人总是做一些好事,则那个人大概率是一个好人。
用数学语言表达就是:支持某项属性的事件发生得愈多,则该属性成立的可能性就愈大,这就是贝叶斯的核心
比如实际生活中,我们经常会用到贝叶斯推导,比如下面这个例子:
某零售企业有三家供货商,记为A1、A2、A3,其供应量和不合格率如下图所示
问题1:随机从该零售企业中抽取一个产品,其不合格的概率有多大呢?
典型的由因及果,可直接使用全概率公式计算,我们将不合格的事件用B表示:
P(B)
= P(B|Ai) * P(Ai)
=P(B|A1) * P(A1) + P(B|A2) * P(A2) + P(B|A3) * P(A3)
=(500/1500*10%)+(400/1500*13%)+(600/1500*11%)
= 11.2%
因此,随机从该零售企业中抽取一个产品,其不合格的概率是11.2%;
问题2:如果抽到的某个产品是不合格的,最有可能是来自于哪个供货商呢?
典型的由果及因,可直接使用贝叶斯概率公式计算,我们先求A1供货商的概率:
P(A1|B)=P(A1) * P(B|A1) / P(B)
=(500/1500*10%)/ 11.2%
= 29.8%
同理,我们再求出A2、A3供货商的概率是30.9%、39.3%,所以如果抽到的某个产品是不合格的,最有可能是来自于A3供货商。
在实际的数据分析过程中,我们经常会用到贝叶斯概率的思想,比如我们去分析营销活动的渠道拉新效果,我们不能只针对结果进行分析。
按照贝叶斯定律,我们不能忽略导致这个结果的前提条件。
这个前提条件的忽略最终可能影响了我们对整件事情的判断,这个前提条件就是:我们的投放渠道,这就是朴素贝叶斯的本质。