2019-11-21 图模型/采样方法

2019-11-21 本文已影响0人苏格兰低地弟弟打滴滴

数学竞赛

编写了整除部分的讲义。

图模型（Bishop chap 8）

图模型的优点：

1，有简单的方式可以可视化概率模型的结构，比较有可解释性。

2，能够通过看图得到关于条件独立性等等的结果。

随机图的区分，有向图：贝叶斯网络（呈现因果关系）

无向图：马尔可夫随机场（呈现软约束）

全连接的图： $p\left(x_{1}, \ldots, x_{K}\right)=p\left(x_{K} | x_{1}, \ldots, x_{K-1}\right) \ldots p\left(x_{2} | x_{1}\right) p\left(x_{1}\right)$ ，每一对节点之间会有相连。不过画成图的时候因为我们有选择 $x_{1}, \ldots, x_{K}$ 的先后顺序会导致画出来的图不是对称的。

要求：有向无环图

Sampling Methods（Bishop chap11）

想要估计 $\mathbb{E}[f]=\int f(\mathbf{z}) p(\mathbf{z}) \mathrm{d} \mathbf{z}$

采用估计： $\widehat{f}=\frac{1}{L} \sum_{l=1}^{L} f\left(\mathbf{z}^{(l)}\right)$ 无偏估计

方差： $\operatorname{var}[\widehat{f}]=\frac{1}{L} \mathbb{E}\left[(f-\mathbb{E}[f])^{2}\right]$

（蒙特卡洛方法）

注意：

1，估计器的精度不依赖z的维数。

2，根据这个方差的公式，我们似乎可以通过比较少的样本就能达到不错的精度。但是实际中要考虑到样本 $\mathbf{z}^{(l)}$ 之间可能不是互相独立的。所以我们理应需要更多的样本。

3，假如真实的f和p满足：在f比较大的时候p比较小，在f比较小的时候p比较大，那么可能就需要比较多的样本量达到想要的精度。（这点没有理解！）🔺

有向图的采样：先采父再采子。

无向图的采样:

（In the case of probability distributions defined by an undirected graph, there is no one-pass sampling strategy that will sample even from the prior distribution with no observed variables. Instead, computationally more expensive techniques must be employed, such as Gibbs sampling🔺）

蒙特卡洛估计如何降低方差（用比较少的样本量）是一个问题。

直接求逆函数的方法：

用 $F^{-1}(z)$ 的方法可以生成一维随机连续变量的随机数。

生成二维的正态分布的方法

缺点：需要计算并且求逆不定积分，只能对少数的好求的分布来做。

Rejection sampling ：

前提，p可以算，至少up to 常数 $p(z)=\frac{1}{Z_{p}} \widetilde{p}(z)$

找一个简单的q分布，和k满足上图，先从q里面随机取z，然后 $\left[0, k q\left(z_{0}\right)\right]$ 里取出随机数，如果比 $\widetilde{p}\left(z_{0}\right)$ 大我们就拒绝，否则接受。

接受的概率是

$\begin{aligned} p(\text { accept }) &=\int\{\widetilde{p}(z) / k q(z)\} q(z) \mathrm{d} z \\ &=\frac{1}{k} \int \widetilde{p}(z) \mathrm{d} z \end{aligned}$

所以如果k越小越好。如果q跟p越接近越好。

缺点：还是很难为q确定解析形式（毕竟要把p包住）

Adaptive rejection sampling

想法是我们上面用reject sampling 方法的话，q不好找，而且可能会空出很多，效率不高。

如果函数本身是log concave ，我们可以采用一种新的构造q的方法：

beta函数和取log

搞一些小切线

弄回去形成小包络，这个就很接近了。

我们先弄有限的切线，e之后形成一个暂用的包络函数，然后我们再进行reject sampling ，如果在某一点拒绝了，我们就把这个点作为节点重新弄一个切线。形成一个新的包络函数，这样子就可以动态更新包络函数。

缺点:只能对log concave，有一种和Metropolis-Hastings结合的方法会在后面讨论。

高维很差，举例来说我们采样 $\sigma_{p}^{2} \mathbf{I}$ 方差的正态，我们用更大的方差 $\sigma_{q}^{2} \mathbf{I}$ 的正态去包络，拒绝率 $k=\left(\sigma_{q} / \sigma_{p}\right)^{D}$ 随着D上升会指数衰减，这就麻烦了。

Importance sampling

和前面不一样，我们不采样某个分布p，而是直接对 $\mathbb{E}[f]=\int f(\mathbf{z}) p(\mathbf{z}) \mathrm{d} \mathbf{z}$ 给出一个逼近。