Entropy Search for Information-E
@article{hennig2012entropy,
title={Entropy search for information-efficient global optimization},
author={Hennig, Philipp and Schuler, Christian J},
journal={Journal of Machine Learning Research},
volume={13},
number={1},
pages={1809--1837},
year={2012}}
概
贝叶斯优化中的 Entropy Search (EI) 方法.
主要内容
这篇文章关注的是
的问题, 且假设定义域是有界的.
一般, 通过高斯过程定义的概率替代函数, 假设
在已经观测到以及的基础上, 我们可以求得的后验分布为以
为均值和方差的正态分布.
我们的目的是在已有这些条件的基础上, 寻找下一个(或多个)评估点.
定义:
其中. 的部分在针对连续型的定义域时需要特别的定义. 显然(1)表示为最小值点的概率.
再定义损失函数(当然损失函数不选择KL散度也是可以的, 但这是EI的名字的由来):
当我们选择为上的均匀分布的时候, 当我们最小化的时候, 会趋向Dirac分布(即某个点处的概率密度为无穷, 其余为0, 显然, 该点我们有足够的信心认为其是的最小值点).
但是这样还不够, 我们进一步关心其期望损失(最小化):
通过最小化(3),我们可以获得接下来的评估点.
接下来的问题是如果去估计.
的估计
比较麻烦的是的部分, 策略是挑选个点. 一种是简单粗暴的网格的方式, 但是这种方式往往需要较大的, 另一种是给定一个测度, 根据已有的观察, 通过采样. 一个好的应该在使得令损失能够产生较大变化的区域多采样点, 针对本文的情况 应该在值比较高的地方多采样点.
文中给了俩种方法, 一种直接的方法是可以用蒙特卡洛积分去逼近,
一下是我猜想的用MC积分的方式(文中未给出具体的形式)"
- 根据一定策略选取;
- 重复J次:
- 根据概率采样,
- 计算部分
- 取平均
作者选择的是 Expectation Propagation (EP)的方法, 这种方法能够估计出处的概率: 存在于以为"中心"的一定范围内(文中用step)的概率. 当足够的的时候, 这个step正比于, 则:
这样我们就完成了的估计, 一个更加好的性质是关于的导数是有解析表达式的, 且是不必计算的(后续最小化过程中可以省略掉).
的估计
在这里插入图片描述其中. 在这里插入图片描述
用最小化一阶近似替代, 积分可以用MC积分逼近.
最后给出算法:
在这里插入图片描述