为什么强化学习的探索策略是随机选择动作?

2021-01-31  本文已影响0人  小小何先生

  其实并不是说强化学习只有随机选择策略,而是一种解决办法而已。用来平衡探索和利用(trade off exploration and exploitation),这类问题是多臂老虎机中要解决的经典问题。

  目前主流的算法有:

  贪婪策略(greedy strategy),就是选择当前平均奖励最高的那个arm,但是这种贪婪策略就没有考虑探索,比如有两个arm,当选择了其中一个arm-1这次得到奖励1,而另一个arm-2奖励为0,之后依据贪婪策略就一直选择arm-1,但arm-1实际的奖励为1的概率为0.1arm-2奖励为1的概率0.9低呢?只不过刚好第一次被选中了而已,就很容易丢失掉探索,导致得到一个次优解。

  而\varepsilon-greedy方式说的是以一个\varepsilon概率随机选择arm,而1-\varepsilon概率选择greedy策略,也就是选择当前平均奖励最高的那个arm。由此可以看出收敛率(多快找到最优的arm)会取决于\varepsilon。一旦找到最优的arm,之后就一直选择这个arm就可以了。

  对于这两种算法:

  当然还有基于UCB和贝叶斯的方法,展开来说就太多了,可以参考我以前的文章:求通俗解释下bandit老虎机是个什么东西?,有详细分析。

上一篇 下一篇

猜你喜欢

热点阅读