2019-01-26

2019-01-26  本文已影响0人  hannah1123

贝叶斯分类器:

1 极大似然估计     

a  类条件概率的一种常用策略是先假定其具有某种确定的概率分布形式,再基于训练样本对概率分布的参数进行估计,如 具体的,关于类别C 的类条件概率为 p(x|c) ---> 假定p(x|c)具有确定的形式并且参数向量\theta c唯一且确定

b  令Dc表示训练集D 中 第 c 类样本组成的集合,假定这些样本独立同分布 则参数\theta c 对于数据集Dc的似然 是

                             P(Dc|\theta c) = \prod_{x\in Dc}^n P(x|\theta c)                (1)

               对 \theta c 进行极大似然估计 就是 去寻找能最大化 似然P(Dc|\theta c) 的参数\theta c  --->  直观上看 ,极大似然估计是试图在\theta c 的所有可能的取值中,找到一个能使数据出现的 “ 可能性 "最大的值

c    对于 (1) 连乘 操作 容易出现下溢,通常使用对数似然: 

                                     LL(\theta c) = log P (Dc|\theta c) = \sum_{x\in Dc}^b logP(x|\theta c)

D  参数 \theta c的极大似然估计为 : \theta c = arg    max LL(\theta c)

E   所以 对于 连续属性 情况下 , p(x|c) 服从 分布N(\mu ,\sigma ^2 )---> 该参数 \mu ,\sigma  是 该分布的样本均值和方差

注意 :  对于极大似然估计 局限性 :  估计的结果严重依赖所假设的概率分布是否符合潜在的真实数据分布   ,现实 中,在一定程度上 会利用先验知识 

2  朴素贝叶斯分类器

1  目的:   求  后验概率: P(c|x)

2  前提 : 假设 所有属性相互独立,即 每个属性独立地对分类结果发生影响

3    所以 : p(c|x) =  \frac{p(c)p(x|c)}{p(x)}  =  \frac{p(c)}{p(x)} \prod_{i=1}^dP(xi|c)    (d 为属性的数目,xi 为x 在第i 个属性上的取值)

4  p(x) 都相同 : 所以朴素贝叶斯分类器的表达式:

                    hnb(x) =  argmaxP(c) \prod_{i=1}^dP(xi|c)

5

6   拉普拉斯修正

上一篇下一篇

猜你喜欢

热点阅读