Exploration and Exploitation ——

2018-12-22  本文已影响0人  minus_1

作者@ weanl
创建于 2018-12-22T14:30:00
参考链接:

1. 介绍

1.1 探索与利用间的困境

1.2 生活中栗子

1.3 伍种策略规则

2. 引入多臂老虎机 (The Multi-Armed Bandit)

拉斯维加斯的一排老虎机
维基百科解释如下:
  这个名字来自于想象一个赌徒在一排老虎机(有时被称为“单臂匪徒”),他们必须决定要玩哪些机器,玩每台机器多少次以及按顺序播放它们,以及是否继续使用当前的机器或尝试不同的机器。在该问题中,每台机器从特定于该机器的概率分布中提供随机奖励。赌徒的目标是通过一系列杠杆拉动最大化获得的奖励总和。[3] [4]赌徒在每次试验中面临的关键权衡是在“利用”具有最高预期收益的机器和“探索”以获得关于其他机器的预期收益的更多信息之间

2.1 最大化cumulative reward && 最小化 total regret


且听下回分解

上一篇 下一篇

猜你喜欢

热点阅读