最大似然估计和贝叶斯估计

2018-09-22 本文已影响0人波洛的汽车电子世界

几个基本概念：
a. likelihood就是“似然”，可以理解为概率乘积。
b. 判别函数：判断某个特征矢量属于哪个类别的函数
c. P: 离散变量的概率 p:连续变量的概率
d. 独立同分布 independent and identically distributed 缩写为i.i.d.
e. 充分统计量：参数能够充分地毫无遗漏地反映出数据X 的分布特点。简单的说，知道了充分统计量我们就可以扔掉样本，因为样本里的信息全都被包含在充分统计量里面。再简单的说，他就相当于无损压缩。（此句话来自知乎）

最大似然估计

在贝叶斯决策定理中，我们感兴趣的是给定 $x$ 下的类别 $w_i$ 的后验概率。
$P(w_i|x) = \frac{p(x|w_i)P(w_i)}{\int_jp(x|w_j)P(w_j)}$
从这，对于分类任务，我们得到基于判别函数的决策定理。
$g(x) =P(w_1|x) -P(w_2|x) >c$
$p(x|w_1)P(w_1) -p(x|w_2)P(w_2) >c$
这时，我们需要知道先验概率 $P(w_i)$ 以及条件概率分布 $p(x|w_i)$ 。在实际生活中，分布的具体形式很难知道，我们需要通过数据去估计它们。
我们有一些样品， $D = {(x_1,y_1),\ldots,(x_n,y_n)}$ ，特征向量 $x_i\in R^d$ 包含数据的一些特征，对应的标签 $y_i\in{w_1,\ldots,w_c}$ 指的是对应的类别。
先做重要的假设：假设样品之间独立被取出，也就是对于任意的 $i,j$ 都有 $p(x_i,x_j) =p(x_i)p(x_j)$ 。又假设，对于 $y_i = w_c$ 的任意样品 $x_i$ 都是从同一个分布 $P(x|w_c)$ 中取出的。也就是说，样品都是独立同分布的。
好了，现在开始估计了。
估计先验概率是很容易的，因为每个概率都只是一个数。
$P(w_i|D) = \frac{1}{n}\sum_{i=1}^n\delta(y_i =w_i)$
条件概率分布 $p(x|w_j)$ 是在 $R^d$ 上连续的概率密度，在高维很难算。我们通过假设低维参数分布 ${p_\theta}_j(x|w_j) = p(x|w_j,\theta_j)$ 来简化对条件概率的估计，例如高斯分布。
对于分布的类别来说，参数 $\theta_j$ 是充分统计量，也就是说分布仅仅被这些参数决定。
对于一个单一的类别 $w$ ，假设 $D = \{x_1,\ldots,x_n\}$ 是这个类别下的被选的数据。
以下函数可以解释为，给定数据 $D$ 下的分布参数 $\theta$ 的似然。
$p(D|w,\theta) = p(D|\theta) = \prod_{i=1}^np(x_i|\theta)$
最大似然定律选择使似然最大时的参数。
实际上，更方便的是最大化 log likelihood。
$l(\theta) = lnp(D|\theta) = ln\prod_{i=1}^np(x_i|\theta) = \sum_{i=1}^nlnp(x_i|\theta)$
最大值估计 $\hat {\theta}^{ML} = argmax_{\theta}p(D|\theta) = argmax_{\theta}l(\theta)= argmin_{\theta}-l(\theta)$
如果 $l$ 是光滑函数，也就是 $l$ 两次可微，那么得到局部最大值的条件是导数为0。导数是偏微分向量：
$\nabla_l(\theta) = (\frac{\partial l(\theta)}{\partial \theta_1},\ldots,(\frac{\partial l(\theta)}{\partial \theta_p})^T$
为了辨别得到的是本地最小值还是本地最大值，要判断两次微分后的矩阵（Hessian）是正是负。
多变量的高斯分布
假设样本从多变量的高斯分布中取出，那么判别函数有：
$p(x|\mu,\Sigma) = \frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)]$
均值 $\mu$ 和协方差参数 $\Sigma$ 是高斯分布的充分统计量。
可以得出，数据的似然：
$p(D|\mu,\Sigma) = \prod_{i=1}^n\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}exp[-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)]$
对数化：
$l(\mu,\Sigma) = \sum_{i=1}^n-\frac{1}{2}ln[(2\pi)^d|\Sigma|] -\frac{1}{2}(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)$
对 $\mu$ 求偏微分得：
$\frac{\partial l (\mu,\Sigma)}{\partial \mu} = \sum_{i=1}^n\Sigma^{-1}(x_i-\mu)$
在最大值处，必须满足:
$\sum_{i=1}^n\Sigma^{-1}(x_i-\hat \mu^{ML}) = 0$
可得：
$\hat \mu^{ML} = \frac{1}{n}\sum_{i=1}^nx_i$
这个数就是样本的均值。
注意： $\mu$ 不是 $\Sigma$ 的函数，所以我们可以接着求 $\Sigma$ 。
$\hat \Sigma^{ML} = \frac{1}{n}\sum_{i=1}^n (x_i-\hat \mu^{ML})(x_i-\hat \mu^{ML} )^T$
这个数就是样本的方差。

现在，我们得到了在高斯条件分布下的贝叶斯决策器：
$g(x) =P(w_1|x,D) -P(w_2|x,D) >c$
$\iff p(x|w_1,\hat \theta_1)P(w_1,D) -p(x|w_2, \hat \theta_2)P(w_2,D) >c$
$\iff p(x|w_1,\hat \mu_1^{ML},\hat \Sigma_1^{ML})P(w_1,D) -p(x|w_2, \hat \mu^{ML},\hat \Sigma_2^{ML})P(w_2,D) >c$
3.最大似然估计的偏差
什么是一个好的估计器？评判标准：均方根误差
$MSE[\hat \theta] = E[(\hat \theta -\theta)^2]$
$\quad =E[\hat \theta^2] +\theta^2 - 2E[\hat \theta]\theta$
$\quad =E[\hat \theta^2] -E^2[\hat\theta]+E^2[\hat\theta] +\theta^2 - 2E[\hat \theta]\theta$
$\quad =E[(\hat \theta-E(\hat \theta))^2] +(E[\hat \theta] - \theta)^2$
$\quad =Var(\theta) + Bia(\hat \theta,\theta)^2$
可以看出，最大似然估计对均值的估计是无偏的： $E[\hat\mu^{ML}] = \mu$ 。
但是，它对方差的估计是有偏差的： $E[\hat\Sigma^{ML}] = \frac{n-1}{n}\Sigma$ 。
纠正过的估计器 $\hat \Sigma^{UB} = \frac{n-1}{n}\Sigma$ 是无偏的。

贝叶斯估计

1.最大似然估计与贝叶斯估计的区别：
最大似然估计是假设参数是固定的，尝试用数据来估计。贝叶斯估计则把参数当成是随机变量，假设先验概率基于领域知识(domain knowledge)。
2.最大后验分布MAP
贝叶斯算法是基于最大后验分布来估计参数。
$p(\theta|D) = \frac{p(D|\theta)p(\theta)}{p(D)}$
$\quad =\frac{p(D|\theta)p(\theta)}{\int p(D|\theta)p(\theta)d\theta}$
$\quad \propto p(D|\theta)p(\theta)$
因为 $\int p(D|\theta)p(\theta)d\theta$ 不影响最大值，我们将它舍掉。
$\hat \theta ^{MAP} = argmax_{\theta} p(\theta|D)$
$\quad = argmax_{\theta} p(D|\theta)p(\theta)$
$\quad = argmax_{\theta} ln[p(D|\theta)p(\theta)]$
$\quad = argmax_{\theta} ln[p(D|\theta)]+ln[p(\theta)]$
现在，判别函数可以写为
$g(x) = p(x|w_1,\hat \theta ^{MAP})P(w_1,D) -p(x|w_2, \hat \theta ^{MAP})P(w_2,D) >c$

全贝叶斯 Full Bayesian
Full Bayesian 与Bayesian是不同的。全贝叶斯使用指定的先验分布，也就是利用参数的整个后验分布 $p（θ| D)$ ，我们可以边缘化特定参数 $θ$ 对估计类别条件密度的影响。而经验贝叶斯允许通过使用数据来估计先验分布。
如果先验分布不知道，那么：
a. 具有均匀先验的最大后验分布方法简化到最大似然估计。
b. 先验可以通过具有很大值的协方差的高斯先验来近似。

最大似然估计和贝叶斯估计

最大似然估计

贝叶斯估计

猜你喜欢

热点阅读