深度学习

2021 重启强化学习(4) 多摇臂老虎机

2021-03-24  本文已影响0人  zidea
020.jpg

如果想观看相关视频可以在西瓜视频(账号zidea)或者哔哩哔哩(账号zidea2015)找到我发布视频解说,注意头像和简书使用头像一致。

我们继续来讨论多摇臂老虎机问题一些策略

Thompson sampling 算法

在 thompson sampling 算法中,假设每一个摇臂机给出收益都是服从一个概率分布,我们通过试探来学习出摇臂老虎机的背后的概率。怎么能估计怎么能估计概率 p 的概率分布呢? 答案是假设概率 p 的概率分布符合 beta(wins, lose)分布,有两个参数: wins, lose。每个臂都维护一个 beta 分布的参数。每次试验后,选中一个臂,摇一下,有收益则该臂的 wins 增加 1,否则该臂的 lose 增加 1。每次选择臂的方式是:用每个臂现有的 beta 分布产生一个随机数 b,选择所有臂产生的随机数中最大的那个臂去摇。

平稳与非平稳问题

平稳问题
非平稳问题

因为不平稳

Q_{n+1} = Q_n + \alpha \left[R_n - Q_n \right]

\begin{aligned} Q_{n+1} = Q_n + \alpha \left[R_n - Q_n \right]\\ =\alpha R_n + (1-\alpha)Q_n\\ =\alpha R_n + (1-\alpha)[\alpha R_{n-1} + (1 - \alpha)Q_{n-1}]\\ =\alpha R_n + (1-\alpha)\alpha R_{n-1} + (1-\alpha)(1 - \alpha)Q_{n-1}\\ = \alpha R_n + (1-\alpha) \alpha R_{n-1} + (1- \alpha)^2 \alpha R_{n-2} + \cdots + (1-\alpha)^{n-1} \alpha R_1 + (1 - \alpha) Q_1\\ = (1-\alpha)^nQ_1 +\sum_{i=1}^n \alpha(1-\alpha)^{n-i} R_i \end{aligned}

这样做的好处就是让更新更关注最近的效果,

更新步长的选择

并不是所有的步长选择 \alpha_n(a) 都保证收敛

收敛条件

\sum_{n=1}^{\infty} \alpha_n(\alpha) = \infty \, and \, \sum_{n=1}^{\infty} \alpha^2_n(\alpha) < \infty

行为选择策略

上一篇下一篇

猜你喜欢

热点阅读