2021 重启强化学习(4) 多摇臂老虎机

2021-03-24 本文已影响0人 zidea

020.jpg

如果想观看相关视频可以在西瓜视频(账号zidea)或者哔哩哔哩(账号zidea2015)找到我发布视频解说，注意头像和简书使用头像一致。

我们继续来讨论多摇臂老虎机问题一些策略

Thompson sampling 算法

在 thompson sampling 算法中，假设每一个摇臂机给出收益都是服从一个概率分布，我们通过试探来学习出摇臂老虎机的背后的概率。怎么能估计怎么能估计概率 p 的概率分布呢？答案是假设概率 p 的概率分布符合 beta(wins, lose)分布，有两个参数: wins, lose。每个臂都维护一个 beta 分布的参数。每次试验后，选中一个臂，摇一下，有收益则该臂的 wins 增加 1，否则该臂的 lose 增加 1。每次选择臂的方式是：用每个臂现有的 beta 分布产生一个随机数 b，选择所有臂产生的随机数中最大的那个臂去摇。

平稳与非平稳问题

平稳问题

$Q^*(a)$ 是稳定的，不随时间而变化
随着观测样本的增加，平均估计方法最终收敛于 $q^*(a)$

非平稳问题

$Q^*(a)$ 是关于时间的函数
对 $Q^*(a)$ 的估计需要更关注最近的观测样本

因为不平稳

$Q_{n+1} = Q_n + \alpha \left[R_n - Q_n \right]$

$\begin{aligned} Q_{n+1} = Q_n + \alpha \left[R_n - Q_n \right]\\ =\alpha R_n + (1-\alpha)Q_n\\ =\alpha R_n + (1-\alpha)[\alpha R_{n-1} + (1 - \alpha)Q_{n-1}]\\ =\alpha R_n + (1-\alpha)\alpha R_{n-1} + (1-\alpha)(1 - \alpha)Q_{n-1}\\ = \alpha R_n + (1-\alpha) \alpha R_{n-1} + (1- \alpha)^2 \alpha R_{n-2} + \cdots + (1-\alpha)^{n-1} \alpha R_1 + (1 - \alpha) Q_1\\ = (1-\alpha)^nQ_1 +\sum_{i=1}^n \alpha(1-\alpha)^{n-i} R_i \end{aligned}$

这样做的好处就是让更新更关注最近的效果，

更新步长的选择

并不是所有的步长选择 $\alpha_n(a)$ 都保证收敛

$\alpha_n(a) = \frac{1}{n}$ 收敛
$\alpha_n(a) = \alpha$ 不收敛

收敛条件

$\sum_{n=1}^{\infty} \alpha_n(\alpha) = \infty \, and \, \sum_{n=1}^{\infty} \alpha^2_n(\alpha) < \infty$

第一个条件保证步长足够大，克服初值或随机扰动的影响，收敛与初始值无关
第二个条件保证步长最终会越来越小，小到保证收敛，表示收敛会越来越小

行为选择策略

如何制定合适的行为选择策略
- 贪心策略: 选择当前估值最好的行为
- $\epsilon$ 贪心策略: 以一定的概率随机选择非贪心行为(non-greedy actions)，但是对于非贪心行为不加区分
行为选择策略
- 平衡利用(Exploitation)和探索(Exploration)，应对行为估值的不确定性
- 关键: 确定每一个行为被选择的概率