ML之朴素贝叶斯
2018-12-26 本文已影响30人
yangOvOyang
1.问题描述
给定一个数据集,数据集中所有的样本点都对应一个类标签,其中随机变量,随机变量
现任给一个样本点,朴素贝叶斯将分别求出属于每个类别的概率,然后选择对应概率最大的作为该样本点的类别
2.条件概率
根据条件概率,有
这里我们将看成事件,将视作事件,那么可变形为
3.全概率公式
根据全概率公式,有
这里的事件A被拆分成n个独立事件
于是我们将(2)式中的分母按照全概率公式展开,得到
观察(4)式发现,推导到这一步,要计算样本点的类别,其实就只需要计算和了
4. 朴素贝叶斯为什么“朴素”?
先将放一放,来看看如何计算。由于数据集中的是一个维特征向量,所以
如果假设特征向量的任意一个特征的取值有种,,,类别标签又有K种,即。那么要直观去计算需要个参数,和决策树一样,实际情况不可能有这么多数据。
为了极大地简化计算,朴素贝叶斯算法在这里做了最为朴素最为简单的假设:特征条件独立假设。这就是朴素一词的由来[1]。即假设所有特征之间是独立并且同等重要的。
根据特征条件独立假设,(5)式便可化简为:
将(4)(6)组合,得朴素贝叶斯最终的计算公式:
到这里求解就只需要求解和就可以了。
5.最大似然估计
在给定数据集的基础上,使用最大似然估计来求解和,假设训练集的数量为N,借用指示函数来统计满足的个数如下所示:
至此,朴素贝叶斯已经可以直接计算出任一样本点属于各个类别的概率了,即在给定样本点的情况下,类别标签为的概率。