为什么强化学习的探索策略是随机选择动作？

2021-01-31 本文已影响0人小小何先生

其实并不是说强化学习只有随机选择策略，而是一种解决办法而已。用来平衡探索和利用(trade off exploration and exploitation)，这类问题是多臂老虎机中要解决的经典问题。

目前主流的算法有：

Greedy strategy：

贪婪策略(greedy strategy)，就是选择当前平均奖励最高的那个arm，但是这种贪婪策略就没有考虑探索，比如有两个arm，当选择了其中一个arm-1这次得到奖励1，而另一个arm-2奖励为0，之后依据贪婪策略就一直选择arm-1，但arm-1实际的奖励为1的概率为0.1比arm-2奖励为1的概率0.9低呢？只不过刚好第一次被选中了而已，就很容易丢失掉探索，导致得到一个次优解。

$\varepsilon$ -greedy：

而 $\varepsilon$ -greedy方式说的是以一个 $\varepsilon$ 概率随机选择arm，而 $1-\varepsilon$ 概率选择greedy策略，也就是选择当前平均奖励最高的那个arm。由此可以看出收敛率(多快找到最优的arm)会取决于 $\varepsilon$ 。一旦找到最优的arm，之后就一直选择这个arm就可以了。

对于这两种算法：

如果 $\varepsilon$ 是个常量，time step足够大的话， $Pr(a_{t} \neq a^{*}) \approx \varepsilon$ (近似随机选择的arm都会后悔regret)，此时的期望累计遗憾值 $Loss \approx \sum_{t=1}^{n} \varepsilon =O(n)$ (这里只需要其是线性的就可以)。
如果 $\varepsilon_{t} \propto 1/t$ ，也就是随着time step增加， $\varepsilon$ 逐渐收敛。time step足够大的话， $Pr(a_{t} \neq a^{*}) \approx \varepsilon_{t}=O(\frac{1}{t})$ ，也就是说随着time step的增加，次优解会逐渐减少，此时的期望累计遗憾值 $Loss \approx \sum_{t=1}^{n} \frac{1}{t} =O(log n)$ (这里只需要其是对数级的就可以)。

当然还有基于UCB和贝叶斯的方法，展开来说就太多了，可以参考我以前的文章：求通俗解释下bandit老虎机是个什么东西？，有详细分析。

为什么强化学习的探索策略是随机选择动作？

猜你喜欢

热点阅读