数据挖掘

机器学习读书笔记 — 朴素贝叶斯

2018-01-27  本文已影响11人  爱秋刀鱼的猫

什么是贝叶斯定理?


在贝叶斯定理中,每个名词都有约定俗成的名称:

举个例子:
两个一模一样的碗,一号碗有30颗水果糖和10颗巧克力糖,二号碗有水果糖和巧克力糖各20颗。现在随机选择一个碗,从中摸出一颗糖,发现是水果糖。请问这颗水果糖来自一号碗的概率有多大?

我们假定,H1表示一号碗,H2表示二号碗。由于这两个碗是一样的,所以P(H1)=P(H2),也就是说,在取出水果糖之前,这两个碗被选中的概率相同。因此,P(H1)=0.5,我们把这个概率就叫做"先验概率",即没有做实验之前,来自一号碗的概率是0.5。

再假定,E表示水果糖,所以问题就变成了在已知E的情况下,来自一号碗的概率有多大,即求P(H1|E)。我们把这个概率叫做"后验概率",即在E事件发生之后,对P(H1)的修正。


这表明,来自一号碗的概率是0.6。也就是说,取出水果糖之后,H1事件的可能性得到了增强。

朴素贝叶斯定理的应用
对于如下的数据集,求 x=(2,s)的类的标记。

对于这个问题,也就是求解:

p( y= 1 | X = (2,s) )
p( y=-1 | X = (2,s) )

那个概率值更大,就去哪一个。

两个公式展开,分别如下:


因为上述的分母是相同的,所以只需要比较分子的大小,即:


求解的过程:


基于贝叶斯的垃圾邮件分类

todo


参考文献
阮一峰的bolg: http://www.ruanyifeng.com/blog/2011/08/bayesian_inference_part_one.html

李航 《统计学习方法》

上一篇 下一篇

猜你喜欢

热点阅读