1 贝叶斯学习
特性
1.观察到的每个样例可以增量的升高或降低某假设的估计概率。
2.先验知识可以与观察数据一起决定假设的最终概率。
3.贝叶斯方法可以运行做出不确定性预测。
4.新实例可以由多个假设做出不确定性预测,用它们的概率进行加权。
5.即使在贝叶斯方法计算复杂度较高时,它们仍然可以作为一个最优决策的标准来衡量其他方法。
贝叶斯法则
贝叶斯公式:
公式1 贝叶斯公式朴素贝叶斯分类器
朴素贝叶斯是一种构建分类器的简单方法。该分类器模型会给问题实例分配用特征值表示的类标签,类标签取自有限集合。它不是训练这种分类器的单一算法,而是一系列基于相同原理的算法:所有朴素贝叶斯分类器都假定样本每个特征与其他特征都不相关。举个例子,如果一种水果其具有红,圆,直径大概3英寸等特征,该水果可以被判定为是苹果。尽管这些特征相互依赖或者有些特征由其他特征决定,然而朴素贝叶斯分类器认为这些属性在判定该水果是否为苹果的概率分布上独立的。
对于某些类型的概率模型,在监督式学习的样本集中能获取得非常好的分类效果。在许多实际应用中,朴素贝叶斯模型参数估计使用最大似然估计方法;换而言之,在不用到贝叶斯概率或者任何贝叶斯模型的情况下,朴素贝叶斯模型也能奏效。(摘自维基百科)。
利用链式法则,类变量c的条件分布可以表达为
公式2 类变量条件分布其中Z(证据因子)是一个只依赖与F值的缩放因子,当特征变量的值已知时,它是一个常数。
构造分类器
朴素贝叶斯分类的一个普通规则就是选出最有可能的那个:这就是大家熟知的最大后验概率(MAP)决策准则。相应的分类器便是如下公式定义的:
公式3 MAP公式高斯朴素贝叶斯
如果要处理的是连续数据一种通常的假设是这些连续数值为高斯分布。 例如,假设训练集中有一个连续属性,x。我们首先对数据根据类别分类,然后计算每个类别中x}的均值和方差。计算x在c类上的均值,和x在c类上的方差。在给定类中某个值的概率,计算x为某值时属于c类的概率,可以通过以下公式计算:
公式4 高斯分布概率计算公式处理连续数值问题的另一种常用的技术是通过离散化连续数值的方法。通常,当训练样本数量较少或者是精确的分布已知时,通过概率分布的方法是一种更好的选择。在大量样本的情形下离散化的方法表现更优,因为大量的样本可以学习到数据的分布。由于朴素贝叶斯是一种典型的用到大量样本的方法(越大计算量的模型可以产生越高的分类精确度),所以朴素贝叶斯方法都用到离散化方法,而不是概率分布估计的方法。
尽管实际上独立假设常常是不准确的,但朴素贝叶斯分类器的若干特性让其在实践中能够获取令人惊奇的效果。特别地,各类条件特征之间的解耦意味着每个特征的分布都可以独立地被当做一维分布来估计。这样减轻了由于维数灾难带来的阻碍,当样本的特征个数增加时就不需要使样本规模呈指数增长。然而朴素贝叶斯在大多数情况下不能对类概率做出非常准确的估计,但在许多应用中这一点并不要求。例如,朴素贝叶斯分类器中,依据最大后验概率决策规则只要正确类的后验概率比其他类要高就可以得到正确的分类。所以不管概率估计轻度的甚至是严重的不精确都不影响正确的分类结果。在这种方式下,分类器可以有足够的鲁棒性去忽略朴素贝叶斯概率模型上存在的缺陷。
案例
案例1:性别分类
问题描述:通过一些测量的特征,包括身高、体重、脚的尺寸,判定一个人是男性还是女性。
训练数据:
训练数据推理过程:
(1)计算训练数据均值和方差等数据如下:
均值方差等(2)给定样例如下:
待预测样例(3)假设人群中男女概率均为0.5。
那么,男性概率计算公式如下:
公式5,男性概率计算公式女性概率计算公式如下:
公共6 女性概率计算公式最后可计算得:
P(Male) = 6*10^-9 / (5*10^-4 + 6* 10^-9) = 0
P(Female) = 5*10^-4 / (5*10^-4 + 6* 10^-9) = 1
所以预测结果为女性。