2.3.5 顺序估计

2019-02-23 本文已影响0人 golfgang

本章存疑
2.3.4讨论了高斯分布的最大似然估计，现在来讨论一个更一般的话题：最⼤似然的顺序估计。

顺序的⽅法允许每次处理⼀个数据点，然后丢弃这个点。这对于在线应⽤很重要。并且当数据集相当⼤以⾄于⼀次处理所有数据点不可⾏的情况下，顺序⽅法也很重要。

考虑均值的最大似然估计结果 $\mu_{ML}$ ，当他依赖于第 $N$ 次观察时，记作 $\mu_{ML}^{(N)}$ ，有
$\mu_{ML}^{(N)}=\frac{1}{N}\sum^N_{n=1}x_n\\=\frac{1}{N}x_N+\frac{1}{N}\sum^{N-1}_{n=1}x_n\\=\frac{1}{N}x_N+\frac{N-1}{N}\mu_{ML}^{(N-1)}\\=\mu_{ML}^{N-1}+\frac{1}{N}(x_N-\mu_{ML}^{(N-1)})$
在观测到 $N-1$ 的数据点时，我们已经得到了 $\mu_{ML}^{(N-1)}$ 了，当观测到 $x_N$ 时我们就可以得到一个修正的估计 $\mu_{ML}^{(N)}$ ，随着 $N$ 的增加，后续数据点的贡献也会变小。

以上的公式是根据高斯分布的最大似然估计公式推导得到的，为了寻找一个更加通用的顺序学习方法，这里就引出Robbins-Monro算法。

Robbins-Monro算法：考虑⼀对随机变量 $θ$ 和 $z$ ，它们由⼀个联合概率分布 $p(z, θ)$ 所控制。给出特定 $θ$ ，变量z的条件期望由以下的函数 $f(θ)$ 确定：
$f(θ) = E[z|θ]=\int zp(z|θ)dz$
这个公式看前面两部分就够了，可以理解为 $f(x)=y$ ，但是这个函数的求解要通过多次采样回归得到，意思就是当 $θ$ 为某取值的时候， $z$ 会有概率 $p(z|θ)$ 的可能取某值，这是因为有一定的噪声干扰(如下图)而导致 $f(θ)$ 不存在一个闭式解 $z$ 。

通过这种⽅式定义的函数被称为回归函数，我们的⽬标是寻找根 $θ^∗$ 使得 $f(θ^∗)=0$ 。

如果我们有观测 $z$ 和 $θ$ 的⼀个⼤数据集，那么我们可以直接对回归函数建模，得到根的⼀个估计。

如果我们每次观测到⼀个z的值，我们想找到⼀个对应的顺序估计⽅法来找到 $θ^∗$ ，解决这种问题的通用方法如下：
首先我们假定z的条件方差是有穷的：
$E[(z-f)|θ] < \infty$
同时我们也假设当 $θ>θ^*$ 时 $f(θ)>0$ ，当 $θ<θ^*$ 时 $f(θ)<0$ ，Robbins-Monro给出了一个根 $θ^*$ 顺序估计的公式

$θ^{(N)}=θ^{(N-1)}-\alpha_{N-1}z(θ^{(N-1)})\\$
这个公式给出的顺序估计确实以概率为1收敛于根

其中 $z(θ^{(N)})$ 是当 $θ$ 取值为 $θ^{(N)}$ 是 $z$ 的观测值，系数 $\alpha_N$ 表示一个满足一下条件的正数数列：

$\lim_{N\rightarrow\infty}\alpha_N=0\\ \sum_{N=1}^{\infty}\alpha_N=\infty\\ \sum_{N=1}^{\infty}\alpha_N^2<\infty\\ PS:\frac{1}{N}就是一个满足条件的正数数列$
以上三个条件： 条件一确保后续的修正幅度会变小，条件二确保算法不会收敛不到根，条件三保证累积的噪声具有一个有限的方差，收敛不会失败

现在用Robbins-Monro来顺序估计 $θ_{ML}$

根据定义（上一章），最大似然解 $θ_{ML}$ 是负对数似然函数的一个驻点，因此有
$\frac{\delta}{\delta θ}\{\frac{1}{N}\sum_{n=1}^{N}-\ln p(x_n|θ)\}|_{θ_{ML}}=0$
取 $N\rightarrow \infty$ ，有
$\lim_{N\rightarrow\infty}\frac{1}{N}\sum^{N}_{n=1}\frac{\delta}{\delta θ}\ln p(x_n|θ)=E_x[-\frac{\delta}{\delta θ}\ln p(x|θ)]$
等式右边，我们应用Robbins-Monro方法，形式为
$θ^{(N)}=θ^{(N-1)}-\alpha_{N-1}\frac{\delta}{\delta θ^{(N-1)}}[-\ln p(x_N|θ^{(N-1)})]$
$θ^{(N)}$ 就是高斯分布均值 $\mu_{ML}^{(N)}$ 的估计

随机变量 $z$ 的形式为
$z= -\frac{\delta}{\delta_{ML}}\ln p(x|\mu_{ML},\sigma^2)=-\frac{1}{\sigma^2}(x-\mu_{ML})$
$z$ 的分布是一个高斯分布，均值为 $-\frac{1}{\sigma^2}(x-\mu_{ML})$ ，如下图。

2.3.5 顺序估计

猜你喜欢

热点阅读