朴素贝叶斯算法总结

2019-08-01 本文已影响57人易码当先

一、贝叶斯定理

二、朴素贝叶斯分类工作原理及流程

三、总结

一、贝叶斯定理：是为了解决“逆向概率”问题而写的一篇文章，尝试回答在没有太多可靠证据的情况下，怎样做出更符合数学逻辑的推测。这种推测基于主观的判断的基础上，在事先不知道客观事实的情况下，同样可以先估计一个值，然后根据实际结果不断进行修正。

这个定理解决了现实生活中已知条件概率，如何得到两个事件交换后的概率。例如：已知P(A|B)的情况下，如何求出P(B|A)的概率问题。贝叶斯定理的出现就是用来打通P(A|B)到P(B|A)之路，通用公式如下：

贝叶斯定理

先验概率：通过经验来判断事情发生的概率。

条件概率：P(A|B)表示事件B已经发生的前提下，事件A发生的概率，叫做事件B发生下事件A的条件概率。其基本求解公式为：

条件概率

后验概率：发生结果之后，推断原因的概率。它属于条件概率的一种。

二、朴素贝叶斯分类原理及流程

朴素贝叶斯法：是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练集，首先基于特征条件独立假设学习输入/输出的联合概率分布；然后基于此模型，对给定的输入x，利用贝叶斯定理求出后验概率最大的输出y。之所以朴素的思想基础是：对于给定的待分类项，求解在此项出现的特征条件下在各类别出现的概率，哪个最大，就认为此待分类项属于哪个类别。

朴素贝叶斯分类具体定义：

a、设x={ $a_{1}$ ， $a_{2}$ ， $a_{3}$ ，...... $a_{m}$ }为一个待分类项，而每个a为x的一个特征属性。

b、有类别集合C={ $y_{1}$ ， $y_{2}$ ， $y_{3}$ ，...， $y_{n}$ }。

c、计算P( $y_{1}$ | x)，P( $y_{2}$ | x)，...，P( $y_{n}$ | x)。

d、如果P( $y_{k}$ | x)=max{ P( $y_{1}$ | x)，P( $y_{2}$ | x)，...，P( $y_{n}$ | x) }，则x $\in$ $y_{k}$

那么现在的关键是c中如何计算出各条件概率，如下：

1、找到一个已知分类的待分类项的集合，称为训练样本集。

2、统计得到各类别下各特征属性的条件概率估计。即：

P( $a_{1}$ | $y_{1}$ )，P( $a_{2}$ | $y_{1}$ )，...，P( $a_{m}$ | $y_{1}$ )；P( $a_{1}$ | $y_{2}$ )，P( $a_{2}$ | $y_{2}$ )，...，P( $a_{m}$ | $y_{2}$ )；.......，P( $a_{1}$ | $y_{n}$ )，P( $a_{2}$ | $y_{n}$ )，...，P( $a_{m}$ | $y_{n}$ )。

3、如果各特征属性是条件独立的，则根据贝叶斯公式有如下推导：

P( $y_{k} \vert x$ ) = $\frac{P(x | y_{k} ) P(y_{k} )}{P(x)}$

因为分母对所有分类均为常数（可忽略），因此我们只需将分子最大化。又因为各特征属性是条件独立的，所以有：

$P(x\vert y_{k})$ $P(y_{k} )$ = $P(a_{1}\vert y_{k} )$ $P(a_{2} \vert y_{k})$ ..... $P(a_{m} \vert y_{k})$ $P(y_{k})$ = $p(y_{k})$ $\coprod_{j=1}^m$ $P(a_{j}\vert y_{k})$