NLP

朴素贝叶斯算法

2019-08-03  本文已影响0人  方帮信

朴素贝叶斯算法

首先要知道的是什么是贝叶斯:

【第四版浙江大学-概率论与数理统计-P18】

全概率公式的定理如下:

全概率公式的证明过程:

通过全概率公式就能引出贝叶斯公式,在理解全概率公式的基础上,就能顺其自然的理解贝叶斯公式。

如下就是贝叶斯公式的定理:

贝叶斯公式的证明过程:

上述四张图,简明的描述了,贝叶斯公式和全概率公式,并且通过其中的证明过程,能够加深对全概率公式和贝叶斯公式的理解。

对全概率公式和贝叶斯公式进行比较就能看出来,

全概率公式能够得到的是,样本空间S下,在E试验中A事件发生的可能性的描述

贝叶斯公式则描述的是,样本空间S下,在E试验中A事件发生的前提下,对于样本空间的划分B的概率的不同划分部分的概率大小。简单点说,就是事件A发生在B划分的可能性的大小。

通过这种描述,就能够想到,在机器学习的过程中,对于数据进行分类的时候,把不同的样本,放在不同的空间中的场景,和这里的场景就能够一定程度上关联起来。

这里需要理解的有以下几个部分:

①划分区间

②事件

③总的样本空间

通过这三个元素进行组合就能分为以下两种实际问题:

①在总的样本空间中,不同划分区间、某一事件发生的概率

②在总的样本空间中,某一事件发生在不同划分区间的概率

这就是我们在机器学习过程中,对于样本的训练和学习过程中肯定会涉及到的问题。

另外在概率的计算过程中,不可避免的两个概念就是先验概率和后验概率,其中

先验概率是由以往的数据分析出来的已知的概率值。

后验概率是得到部分信息之后,推断计算出的概率值。

在统计学习的过程中会发现 ,起初阶段可能会对一些概率或者函数公式,表示不认识,如下的条件概率分布和决策函数的表示就是一类,在P和f的上方会有个小的倒尖括号,如下:

损失函数(loss function)或代价函数(cost function):

损失函数的期望:

经验风险、经验损失:

期望风险:模型关于联合分布的期望损失

经验风险:关于训练样本的平均损失

上一篇 下一篇

猜你喜欢

热点阅读