2019-11-21 图模型/采样方法

2019-11-21  本文已影响0人  苏格兰低地弟弟打滴滴

数学竞赛

编写了整除部分的讲义。


图模型(Bishop chap 8)

图模型的优点:

1,有简单的方式可以可视化概率模型的结构,比较有可解释性。

2,能够通过看图得到关于条件独立性等等的结果。

随机图的区分,有向图:贝叶斯网络(呈现因果关系)

                         无向图:马尔可夫随机场(呈现软约束)

全连接的图:p\left(x_{1}, \ldots, x_{K}\right)=p\left(x_{K} | x_{1}, \ldots, x_{K-1}\right) \ldots p\left(x_{2} | x_{1}\right) p\left(x_{1}\right),每一对节点之间会有相连。不过画成图的时候因为我们有选择x_{1}, \ldots, x_{K}的先后顺序会导致画出来的图不是对称的。

要求:有向无环

Sampling  Methods(Bishop chap11)

想要估计\mathbb{E}[f]=\int f(\mathbf{z}) p(\mathbf{z}) \mathrm{d} \mathbf{z}  

采用估计:\widehat{f}=\frac{1}{L} \sum_{l=1}^{L} f\left(\mathbf{z}^{(l)}\right)  无偏估计

方差:\operatorname{var}[\widehat{f}]=\frac{1}{L} \mathbb{E}\left[(f-\mathbb{E}[f])^{2}\right]

(蒙特卡洛方法)

注意:

1,估计器的精度不依赖z的维数

2,根据这个方差的公式,我们似乎可以通过比较少的样本就能达到不错的精度。但是实际中要考虑到样本\mathbf{z}^{(l)}之间可能不是互相独立的。所以我们理应需要更多的样本。

3,假如真实的f和p满足:在f比较大的时候p比较小,在f比较小的时候p比较大,那么可能就需要比较多的样本量达到想要的精度。(这点没有理解!)🔺

有向图的采样:先采父再采子。

无向图的采样:

(In the case of probability distributions defined by an undirected graph, there is no one-pass sampling strategy that will sample even from the prior distribution with no observed variables. Instead, computationally more expensive techniques must be employed, such as Gibbs sampling🔺)

蒙特卡洛估计如何降低方差(用比较少的样本量)是一个问题。

直接求逆函数的方法:

F^{-1}(z)的方法可以生成一维随机连续变量的随机数。

生成二维的正态分布的方法

缺点:需要计算并且求逆不定积分,只能对少数的好求的分布来做。

Rejection sampling :

前提,p可以算,至少up to 常数 p(z)=\frac{1}{Z_{p}} \widetilde{p}(z)

找一个简单的q分布,和k满足上图,先从q里面随机取z,然后\left[0, k q\left(z_{0}\right)\right]里取出随机数,如果比\widetilde{p}\left(z_{0}\right)大我们就拒绝,否则接受。

接受的概率是

\begin{aligned} p(\text { accept }) &=\int\{\widetilde{p}(z) / k q(z)\} q(z) \mathrm{d} z \\ &=\frac{1}{k} \int \widetilde{p}(z) \mathrm{d} z \end{aligned}

所以如果k越小越好。如果q跟p越接近越好。

缺点:还是很难为q确定解析形式(毕竟要把p包住)

Adaptive rejection sampling

想法是我们上面用reject sampling 方法的话,q不好找,而且可能会空出很多,效率不高。

如果函数本身是log concave ,我们可以采用一种新的构造q的方法:

beta函数和取log 搞一些小切线 弄回去形成小包络,这个就很接近了。

我们先弄有限的切线,e之后形成一个暂用的包络函数,然后我们再进行reject sampling ,如果在某一点拒绝了,我们就把这个点作为节点重新弄一个切线。形成一个新的包络函数,这样子就可以动态更新包络函数。

缺点:只能对log concave,有一种和Metropolis-Hastings结合的方法会在后面讨论。

        高维很差,举例来说我们采样\sigma_{p}^{2} \mathbf{I}方差的正态,我们用更大的方差\sigma_{q}^{2} \mathbf{I}的正态去包络,拒绝率k=\left(\sigma_{q} / \sigma_{p}\right)^{D}随着D上升会指数衰减,这就麻烦了。

Importance sampling

和前面不一样,我们不采样某个分布p,而是直接对\mathbb{E}[f]=\int f(\mathbf{z}) p(\mathbf{z}) \mathrm{d} \mathbf{z}给出一个逼近。

上一篇下一篇

猜你喜欢

热点阅读