贝叶斯方法理解

2020-06-10  本文已影响0人  ShuiLocked

读到了一篇不错的关于贝叶斯方法和贝叶斯网络的文章,整理一下理解和思考。

概率和统计是两个非常相关的概念,大家印象里很容易把统计变量等同于某个概率值或概率分布,但对于不同的统计方法而言,如何看待统计变量是存在区别的。

对于某个待推断的统计变量\theta,频率学派认为\theta是一个固定变量,给定了一系列随机样本X后,通过计算频率来估计样本的分布,从而确定\theta。相反,贝叶斯学派认为\theta也是随机变量,在没有观察到任何样本之前,人们可以对\theta有一个主观的猜测,通常表示为先验分布p(\theta)。而当观察到样本后X,先验分布会被逐渐修正为后验分布p(\theta|X),从而逼近真正\theta的取值。

既然贝叶斯方法中,需要由后验分布来估计统计变量,那么一个重要的问题是如何计算后验分布。这里就需要引入贝叶斯公式: p(\theta|X) = \frac{p(\theta,X)}{p(X)} = \frac{p(X|\theta)p(\theta)}{p(X)}

可以看到,后验分布p(\theta|X)是先验分布p(\theta)通过乘以某个修正因子\frac{p(X|\theta)}{p(X)}得到的。这里p(X|\theta)被称为Likelihood,表示已知\theta,样本X发生的概率;p(\theta,X)称为联合分布,表示p(\theta,X)同时发生的概率;p(X)则代表样本X发生的边缘分布,可以通过将联合分布p(\theta,X)\theta积分求得。

在实践中,我们一般取使后验概率分布p(\theta|X)最大的\hat{\theta}作为估计,也即最大后验估计。对于给定的X,一般认为p(X)也是固定的,因此最大后验估计也就被转化为最大化p(X|\theta)p(\theta)

以上方法被广泛应用在各类问题中,比如应用朴素贝叶斯算法解决垃圾邮件分类,应用noisy channel model解决拼写检查。

参考:
从贝叶斯方法谈到贝叶斯网络

上一篇 下一篇

猜你喜欢

热点阅读