朴素贝叶斯算法总结
目录
一、贝叶斯定理
二、朴素贝叶斯分类工作原理及流程
三、总结
一、贝叶斯定理:是为了解决“逆向概率”问题而写的一篇文章,尝试回答在没有太多可靠证据的情况下,怎样做出更符合数学逻辑的推测。这种推测基于主观的判断的基础上,在事先不知道客观事实的情况下,同样可以先估计一个值,然后根据实际结果不断进行修正。
这个定理解决了现实生活中已知条件概率,如何得到两个事件交换后的概率。例如:已知P(A|B)的情况下,如何求出P(B|A)的概率问题。贝叶斯定理的出现就是用来打通P(A|B)到P(B|A)之路,通用公式如下:
贝叶斯定理先验概率:通过经验来判断事情发生的概率。
条件概率:P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。其基本求解公式为:
条件概率后验概率:发生结果之后,推断原因的概率。它属于条件概率的一种 。
二、朴素贝叶斯分类原理及流程
朴素贝叶斯法:是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。之所以朴素的思想基础是:对于给定的待分类项,求解在此项出现的特征条件下在各类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。
朴素贝叶斯分类具体定义:
a、设x={,,,......}为一个待分类项,而每个a为x的一个特征属性。
b、有类别集合C={,,,...,}。
c、计算P(| x),P(| x),...,P(| x)。
d、如果P(| x)=max{ P(| x),P(| x),...,P(| x) },则x
那么现在的关键是c中如何计算出各条件概率,如下:
1、找到一个已知分类的待分类项的集合,称为训练样本集。
2、统计得到各类别下各特征属性的条件概率估计。即:
P(|),P(|),...,P(|);P(|),P(|),...,P(|);.......,P(|),P(|),...,P(|)。
3、如果各特征属性是条件独立的,则根据贝叶斯公式有如下推导:
P() =
因为分母对所有分类均为常数(可忽略),因此我们只需将分子最大化。又因为各特征属性是条件独立的,所以有:
=.....=
综上所述,朴素贝叶斯分类的流程图:
分类器工作流程第一阶段:准备工作,确定训练样本集和特征属性。
第二阶段:分类器训练,计算先验概率和各类下各特征的条件概率。输入为样本集和特征属性,输出为分类器。
第三阶段:分类器应用,输入为分类器和待分类项,输出为待分类项的类。
三、总结:
1、朴素贝叶斯法是典型的生成学习方法。生成方法由训练数据学习联合概率分布P(X,Y),然后求得后验概率分布P(Y|X)。具体来说,利用训练数据学习P(X|Y)和P(Y)的估计,得到联合概率分布:P(X,Y)=P(Y)P(X|Y)。概率估计法可以是极大似然估计或者贝叶斯估计。
2、朴素贝叶斯法的基本假设是特征属性的条件独立性,即
在一个确定的类别上,特征属性条件独立这是一个较强的假设,由于这一假设,模型包含的条件概率的数量大为减少,朴素贝叶斯的学习与预测大为简化,因而朴素贝叶斯法高效,且易于实现。缺点是分类的性能不一定很高。
3、朴素贝叶斯法利用贝叶斯定理与学到的联合概率模型进行分类预测。将输入的x分到后验概率最大的类y。后验概率最大等价于0-1损失函数时的期望风险最小化。