深度学习

2021 重启强化学习(5) 多摇臂老虎机(UCB)

2021-03-24  本文已影响0人  zidea
020.jpg

如果想观看相关视频可以在西瓜视频(账号zidea)或者哔哩哔哩(账号zidea2015)找到我发布视频解说,注意头像和简书使用头像一致。

通过一个问题引入置信区间

老虎机
1 1,0,0,1,1,0,0,1,0,1 0.5
2 1 1
3 1,1,0,1,1,1,0,1,1,1 0.8

置信区间

其实置信区间没有那么复杂,这里简单用语言描述一下,就是对 MAB(多摇臂老虎机)我们都是通过尝试来得到值去推测其概率分布,那么我们看到均值是否接近真实值是和我们做实验次数多少有关系的,也就是实验次数越多这个值就越准确,这是我们想的,如何用数学严谨表达这件事,就引入置信区间的概念。

乐观策略

置信区间的上界

Heoffding's inequality

2 e^{-2b^2m} \le \delta \rightarrow b \ge \sqrt{\frac{\ln(\frac{2}{\delta})}{2m}}

UCB(Upper confidence smapling) 算法

UCB 具体操作流程

UCB(i) = \hat{\mu}_i + \sqrt{\frac{2 \ln t}{n_i}}

上一篇 下一篇

猜你喜欢

热点阅读