统计学基础3-条件公式与贝叶斯公式
一. 条件概率
1.1 条件概率计算
已知某个事件A发生的条件下,另一个事件B发生的概率成为条件概率,即为P(B|A)
如何计算条件概率P(B|A) ??
甲乙两人各抛一颗骰子,点数大的赢。如果甲先抛骰子,得到点数4,那么乙获胜的概率是多少?
记A={甲得到点数为4}, B={乙获胜}
P(A) = 1/6; P(AB)=(1+1)/6*6=1/18;P(B)=2/6=1/3
看一下P(B|A)与P(A)、P(B)的关系: P(B|A)=P(AB)/P(A)
image.png
其实关系表示如下更好理解:
P(AB)=P(A)*P(B|A)
AB 两个事件同时发生的 为P(AB)
A 事件发生的概率为P(A)
A事件发生且B事件也发生的概率为P(B)
从上面公式可以推断出:
P(B|A)=P(AB)/P(A)
1.2 条件概率----概率
条件概率说到底也是概率的一种,所以也符合概率定义的三个条件:
- 非负性: P(B|A) >= 0;
- 规范性: 对于必然事件S,有P(S|A)=1
- 可列可加性: 对于两两互不相容的事件B1,B2,B3......Bn,即Bi * Bj = Ø(代表空集), i != j,i,j=1,2,......,P(B1 ∪ B2 ∪ ......|A) = P(B1|A) + P(B2|A) + ......
对于概率的一些公式,条件概率也同样适用
如P(A ∪ B|C) = P(A|C) + P(B|C) - P(AB|C)
1.2.1 例1
某公司年终决定举行抽奖活动,从全部员工中选取一名特等奖。公司人事架构如下:
部门 | 男 | 女 | 合计 |
---|---|---|---|
行政部 | 10 | 10 | 20 |
销售部 | 20 | 10 | 30 |
技术部 | 10 | 4 | 14 |
客户部 | 20 | 16 | 36 |
合计 | 60 | 40 | 100 |
- 若被抽中的人是销售部的,问该员工是女生的概率?
- 若被抽中的人是女生的,问该员工是销售部的概率是?
A={被抽中的是销售部}, B={被抽中的是女生}
- P(B|A) = P(AB)/P(A)=(10/100)/(20/100) = 1/3
- P(A|B) = P(AB)/P(B)=(10/100)/(40/100) = 1/4
1.2.1 例2:汽车与山羊
美国的一个电视游戏节目 Let 's Make a Deal上有一个游戏,规则如下:参赛者会看见三扇关闭了的门,其中一扇的后面有一辆汽车,选中后面有车的那扇门就可以赢得该汽车,而另外两扇门后面则各藏有一只山羊。当参赛者选定一扇门,但未去开启它的时候,节目主持人会开启剩下两扇门的其中一扇,露出其中一只山羊。主持人其后会问参赛者要不要换另一扇仍然关上的门。
image.png
面对这个问题,有两种观点:
-
换与不换都一样,因为当一道藏有山羊的们被打开时,剩下的两道门中,汽车在任一道们的概率都是1/2,所以换与不换获得汽车的概率都一样。
-
换比不换好。有三种可能的情况,全部都有相等的可能性(1/3)。
2.1) 参赛者挑山羊一号,主持人挑山羊二号。转换将赢得汽车。
2.2) 参赛者挑山羊二号,主持人挑山羊一号。转换将赢得汽车。
2.3) 参赛者挑汽车,主持人挑两头山羊中的任何一头。转换将失败。
在头两种情况,参赛者可以通过转换选择赢得汽车。第三种情况是唯一一种参赛者通过保持原有选择而赢的情况。因为三种情况中有两种是通过转换选择而赢得的,所以通过转换而赢的概率是2/3.
你支持哪种看法?
用数据说话:
将3个门记为1,2,3号,假设参赛者先选择的是1号门。记A={1号门是汽车};B={2号门是汽车};C={3号门是汽车},则P(A)=P(B)=P(C)=1/3。原来的选择有1/3的机会获得汽车。
假设主持人开启了2号门,这个事件记为D。那么参赛者坚持选择或是改变选择而赢得汽车的概率又是多少?
从图中的第一列看出,当参赛者选择1号门,2号门被打开的概率P(D)=1.5/3;汽车在1号门并且主持人打开2号门的概率P(AD)=0.5/3.
- 坚持选择: P(A|D) = P(AD)/P(D)=1/3
- 改变选择: P(CD) = 1/3 P(C|D)=P(CD)/P(D)=2/3
所以,改变选择将有更大的几率获得汽车。
那么下面这个图怎么解释呢?
我们看第一个行的格子,假设车在1号门。
如果选择了1号门,那么主持人可能打开2号门或3号门,所以第一个格子里面有2也有3。
如果选择了2号门,那么主持人会打开3号门。
如果选择了3号门,那么主持人会打开2号门。
第二行的依次类推。
所以P(D)=1.5/3
P(AD)=0.5/3
如下图:改变主意有2/3的概率可以得到汽车。
image.png image.png
也可以通过Python来实现:
#检测若输入的模拟次数不是整数,提示重新输入
while True:
try:
total = input("请输入模拟次数:")
total=int(total)
break #若输入的正确,则退出,错误执行except下面代码
except:
print('您输入的内容不规范,请重新输入:')
#根据你输入的保存在total中次数,重复进行大量测试,统计换门与不换门赢得汽车的概率
a=b=c=d=e=f=0.00
x=0
from random import randint
list=["sheep1","sheep2","car"]
tuple=("yes","no")
while x!=total:
t=randint(0,2)
i=randint(0,1)
if list[t]=="car":
if tuple[i]=="yes":
a+=1
else:
b+=1
elif list[t]=="sheep1":
if tuple[i]=="yes":
c+=1
else:
d+=1
elif list[t]=="sheep2":
if tuple[i]=="yes":
e+=1
else:
f+=1
x+=1
print("总次数为%d"%(total))
print("换%d" %(a+c+e),"不换%d" %(b+d+f))
print("不换赢的概率为%.2f%%"%(b/(c+b+e)*100))
print("换赢的概率为%.2f%%"%((c+e)/(c+b+e)*100))
image.png
1.3 乘法定律
由条件概率的定义,很容易得到P(AB) = P(B|A)P(A),其中P(A)>0
这条公式很容易推广到P(ABC)=P(C|AB)P(B|A)P(A)
image.png image.png
例:
某行业进行专业劳动技能考核,一个月安排一次,每人最多参加3次;某人第一次参加能通过的概率为60%;如果第一次未通过就去参加第二次,这时能通过的概率为80%;如果第二次未通过,则去参加第三次,此时能通过的概率为90%。求这人能通过考核的概率。
第一次不通过的概率是 0.4
第二次连续不通过的概率是 0.4(1 - 0.8) = 0.08
第三次连续不通过的概率是 0.4(1 - 0.8)* (1 - 0.9) = 0.008
只要减去连续三次不通过的即可,1 - 0.008 = 0.992.
不过题目的解法才科学。
二. 贝叶斯公式
2.1 全概率公式
小明是今年的应届毕业生,他现受到3家公司的面试通知,但不巧的是,面试时间基本一样,并且不能更改面试时间。小明只能也必须选择其中一家公司进行面试。如果小明有0.7的概率选择A公司,有0.5的概率面试成功;0.2的概率选择B公司,0.7的概率面试成功;0.1的概率选择C公司,0.3的概率面试成功。那么请算一算,小明面试成功的概率是多少?
A = {面试成功}
B1 = {到A公司面试}
B2 = {到B公司面试}
B3 = {到C公司面试}
根据题意:
P(B1)=0.7,P(A|B1)=0.5;
P(B2)=0.7,P(A|B2)=0.7;
P(B3)=0.7,P(A|B3)=0.3;
{面试成功} = {到A公司面试并成功} ∪ {到B公司面试并成功} ∪ {到C公司面试并成功}
即 A= AB1 ∪ AB2 ∪ AB3,又 B1,B2,B3为互斥事件,故
P(A)
= P(AB1) + P(AB2) + P(AB3)
= P(A|B1)P(B1) + P(A|B2)P(B2) + P(A|B3)P(B3)
= 0.50.7 + 0.70.2 + 0.3*0.1
= 0.52
上面就是全概率公式。
2.1.1 划分
image.png2.1.2 全概率公式
image.png2.1.3 例子
例1:
例2:
2.2 贝叶斯公式
image.png2.2.1 例子
image.png2.2.2 贝叶斯公式应用
应用1-诉讼:
image.png
应用2 - 疾病诊断:
应用3 - 垃圾邮件判别:
2.3 公式比较
image.png2.4 独立性
image.png image.png image.png例子:
2.4.1 相互独立事件与互斥事件、对立事件
image.png image.png例1:
例2:
2.5 每人脑袋里有个贝叶斯
论人类思维时的贝叶斯过程: http://fmajor.lamost.org/blog/2014/03/01/Bayesian-thinking.html?p=1177