数据蛙数据分析每周作业贝叶斯

贝叶斯(Bayes)

2018-12-23  本文已影响60人  怀柔小龙虾
贝叶斯(Bayes)文章概要

介绍部分


概率论部分

由于贝叶斯是基于概率框架下实施决策的方法,所以在讲解贝叶斯的前提下必须先回顾一下概率论方面的几个基本公式,比如条件概率,全概率公式等等

条件概率

\mathrm { P } ( A | B ) = \frac { P ( A B ) } { P ( B ) }

全概率公式

P ( B ) = P ( A ) \cdot P \left( \frac { B } { A } \right) + P ( \overline { A } ) \cdot P \left( \frac { B } { \overline { A } } \right)

贝叶斯基础

这一部分主要讲解一些基础的公式概念,如类先验概率,类条件概率,后验概率等等

贝叶斯公式

P ( c | x ) = \frac { P ( c ) P ( x | c ) } { P ( x ) }

后验概率\mathrm { P } ( c | x ):其实是给定测试样本x向量的情况下,判定测试样本为c_{i}的概率
类先验概率P(c):是依据训练集,提前对类别c进行一个样本估计,其实就是统计出时的频数与总训练数据的占比
类条件概率P ( x | c ):就是在给定的情况下,训练数据中x的分布情况


贝叶斯决策论

借由西瓜书上的话说,贝叶斯决策论是概率框架下实施决策的基本方法。对分类任务而言,在所有相关概率都已知的理想情形下,贝叶斯决策论是基于这些概率和误判损失来考虑如何选择最优的类别标记。意思就是说我们在为某个样本预测分类的时候,不仅要考虑某个样本属于某个类别的概率最大化,还要考虑误判情况下的损失成本最小化。其中,概率最大化就不用多说了,就是选择样本x属于好瓜的概率和属于坏瓜的概率中的最大的那个作为x的预测类别,而损失成本最小化才是接下来的重点,它包括了基于最小错误率的贝叶斯决策和基于最小风险的贝叶斯决策

基于最小错误率的贝叶斯决策

最小错误率用句简单的话来说,就是用我们已经训练好的模型给我们的测试集预测分类时,我们要考虑每个样本的错误率都能达到最小。这样子的说法是不是似曾相识?因为只要我们反着说,它也就是我们刚刚所说的概率最大化,即在样本属于某个类别的概率中选择最大的那个。这样我们应该就能理解,基于最小错误率的贝叶斯决策理论其实就是按后验概率大小来做决策的。当然这个理论还有许多其他的概念和公式,如下:

基于最小风险的贝叶斯决策论

在讲最小风险之前,首先我们来考虑一个问题:所有的错误都是等价值的吗?我们之前引用了西瓜数据集中的好瓜和坏瓜来作为样本的二分类,在基于最小风险的贝叶斯决策论里,我们又见到了样本x上的条件风险\mathrm { R } \left( c _ { i } | x \right) = \sum _ { j = 1 } ^ { N } \lambda _ { i j } P \left( c _ { j } | x \right),其中可能对\lambda _ { i j }所代表的含义难以理解,其实这个\lambda _ { i j }就是我们对这个问题的答案——不等同!一方面我们日常生活里,我们作为买瓜的人,可以容忍一个好瓜被我们分类成坏瓜的,最差的结果也就是我们不买瓜而已,而不能容忍的是一个坏瓜被我们当成了好瓜买回家,所以,这两者之间的错误价值是不等同的,而最小风险的贝叶斯决策论就是解决这个问题的——为每个错误添上错误损失的权重,即\lambda _ { i j }不再天然的等于0 or 1了

我们接下来用几个公式来去好好理解一下吧(这里写的比较水,希望以后能补)

二分类情况的目标函数:
\min r = \int _ { R _ { 1 } } \lambda _ { 11 } P ( x | \omega _ { 1 } ) P \left( \omega _ { 1 } \right) + \lambda _ { 21 } P ( x | \omega _ { 2 } ) P \left( \omega _ { 2 } \right) d x \\ \qquad+ \int _ { R _ { 2 } } \lambda _ { 12 } P ( x | \omega _ { 1 } ) P \left( \omega _ { 1 } \right) + \lambda _ { 22 } P ( x | \omega _ { 2 } ) P \left( \omega _ { 2 } \right) d x

扩展为多分类的决策规则:
x \in R _ { i } \quad if \quad l _ { i } \equiv \sum _ { k = 1 } ^ { M } \lambda _ { k i } P ( x | \omega _ { k } ) P \left( \omega _ { k } \right) < l _ { j } \equiv \sum _ { k = 1 } ^ { M } \lambda _ { k j } P ( x | \omega _ { k } ) P \left( \omega _ { k } \right) \quad \forall j \neq i


朴素贝叶斯

借用统计学习方法书里的话,朴素贝叶斯是基于贝叶斯定理与特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型,对给定的输入x,利用贝叶斯定理求出后验概率最大的输出y。大致什么意思呢?就是这个模型会基于一个假设前提——特征条件独立,然后根据训练集上的数据得出的联合概率分布(也就是之前所说的类条件概率分布和类先验概率的乘积)去学习出一个分类器模型,然后再对给定的测试集x,利用贝叶斯定理输出预测的分类结果y

条件独立性假设

\begin{aligned} \mathrm { P } ( X = x | Y = c _ { k } ) & = P \left( X ^ { 1 } = x ^ { 1 } , \cdots , X ^ { ( n ) } = x ^ { ( n ) } | Y = c _ { k } \right) \\ & = \prod _ { j = 1 } ^ { n } P \left( X ^ { ( j ) } = x ^ { ( j ) } | Y = c _ { k } \right) \end{aligned}

贝叶斯定理

贝叶斯分类器

\mathrm { y } = \mathrm { f } ( x ) = \mathrm { arg } \max _ { c _ { k } } \frac { P \left( Y = c _ { k } \right) \prod _ { j } P \left( X ^ { ( j ) } = x ^ { ( j ) } | Y = c _ { k } \right) } { \sum _ { k } P \left( Y = c _ { k } \right) \prod _ { j } P \left( X ^ { ( j ) } = x ^ { ( j ) } | Y = c _ { k } \right) }

朴素贝叶斯法的参数估计

因为我们需要学习的是联合分布,所以这里的参数估计就是指对类先验概率的估计和类条件概率的估计。参数估计的方法有两种(其实算是一种),我们接下来展开讲

极大似然估计

极大似然估计是依据频数来计算比例,之后将其作为概率的一种方法

贝叶斯估计

贝叶斯估计就是为了解决极大似然估计的问题才出现的,方法是是在极大似然估计的频数上加了一个正数\lambda,通常这个\lambda \geq 0,而当这个\lambda=0时,贝叶斯估计也就成为了极大似然估计,当\lambda=1时,我们称它为拉普拉斯平滑(Laplace smoothing)

朴素贝叶斯算法

输入:训练数据\mathrm { T } = \left\{ \left( x _ { 1 } , y _ { 1 } \right) , \left( x _ { 2 } , y _ { 2 } \right) , \cdots , \left( x _ { N } , y _ { N } \right) \right\},其中x _ { i } = \left( x _ { i } ^ { ( 1 ) } , x _ { i } ^ { ( 2 ) } , \cdots , x _ { i } ^ { ( n ) } \right) ^ { T }x _ { i } ^ { ( j ) }是第i个样本的第j个特征,x _ { i } ^ { ( j ) } \in \left\{ a _ { j 1 } , a _ { j 2 } , \cdots , a _ { j s _ { j } } \right\}a_{jl}是第j个特征可能取的第l个值,\mathrm { j } = 1,2 , \cdots , \mathrm { n }l = 1,2 , \cdots , S _ { j }y _ { i } \in \left\{ c _ { 1 } , c _ { 2 } , \cdots , c _ { K } \right\};实例x
输出:实例x的分类
算法过程:

注:实例可参考西瓜书上的例子,毕竟数据集都是具体已知的,能够看到一些小细节


对于接下来的这两部分,虽然看完了西瓜书上的介绍,但还没有充分理解,所以现在仅介绍一小部分,后期会根据别的书进行更新

半朴素贝叶斯

因为朴素贝叶斯分类器采用的是属性(特征)条件独立性假设,这个假设在现实任务中是很难成立的,而半朴素贝叶斯分类器的提出就是对属性(特征)条件独立性假设做一定程度上的放松,即考虑属性之间的依赖关系。

贝叶斯网

贝叶斯网能够表示任意属性间的依赖性,想比较与半朴素贝叶斯和朴素贝叶斯,朴素贝叶斯和
贝叶斯网像是一种极端,而半朴素贝叶斯更像是他们两者之间的中间版本

上一篇 下一篇

猜你喜欢

热点阅读