强化学习

2018-09-20 本文已影响0人海洋_5ad4

16.1 任务与奖赏

学习从环境状态到行为的映射，使得智能体选择的行为能够获得环境最大的奖赏，使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)为最佳。
以种瓜为例，若将好瓜最为奖励，只有等我们收获西瓜时，我们才直到奖励的大小。但是种瓜过程中的一些动作（如施肥），并不能获得最终奖赏，仅能得到一个当前反馈（如瓜苗更加健壮了）。我们需要多次种瓜，在种瓜过程中摸索。然后总结出好的种瓜策略。将这个过程抽象出来，就是强化学习。

1.jpg

马尔可夫决策过程

2.jpg

策略有两种表示方法：

确定策略，在某个状态上采用固定的动作
随机策略，某个状态上采用的动作是概率分布
奖赏

3.jpg

策略的好坏由奖赏决定，强化学习任务中，学习目的就是就是找出能使长期累积奖赏最大化的策略。

16.2 K摇臂赌博机

模型
K摇臂赌博机有K个摇臂，赌徒在投入一个硬币后可选择按下其中一个摇臂，每个摇臂以一定概率吐出硬币，但这个概率赌徒并不知道。赌徒的目标是通过一定的策略最大化自己的奖赏，即获得最多的硬币。
仅探索法——将所有的尝试机会平均分配给每个摇臂，最后将每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计。
仅利用法——按下目前最优的摇臂，若有多个摇臂同为最优，则从中随机选取一个。
仅探索法可以很好的估计每个摇臂的奖赏，却会失去很多选择最优摇臂的机会；仅利用法则相反，它没有很好地估计摇臂期望奖励，很可能经常选不到最优摇臂。
探索和利用两者是矛盾的，由于尝试次数有限，加强一方则会削弱另一方，这就是强化学习面临的探索——利用窘境。一般我们会找出一个很好的折中，以达到奖赏最大。
ε-贪心
以ε的概率进行探索，以1-ε的概率进行利用。

4.jpg

上面是平均奖赏的两种计算方法，第二种只需要记录两个值，比较适合编程。

5.jpg
softmax（略）
对于多步强化学习任务，一种直接的办法就是将每个状态上动作的选择看作一个K摇臂赌博机问题，用强化学习任务的累积奖赏来代替K摇臂赌博机算法中的奖励函数，即可将赌博机算法用于每个状态。
局限：没有考虑强化学习任务马尔可夫决策过程的结构，忽视了决策过程之间的联系。

16.3 有模型学习

若学习任务中的四个要素都已知，即状态空间、动作空间、转移概率以及奖赏函数都已经给出，这样的情形称为“有模型学习”。假设状态空间和动作空间均为有限，即均为离散值，这样我们不用通过尝试便可以对某个策略进行评估。

16.3.1 策略评估

前面提到：在模型已知的前提下，我们可以对任意策略的进行评估（后续会给出演算过程）。一般常使用以下两种值函数来评估某个策略的优劣：
状态值函数V：V（x），即从状态x出发，使用π策略所带来的累积奖赏；
状态-动作值函数Q：Q（x,a），即从状态x出发，执行动作a后再使用π策略所带来的累积奖赏。

强化学习

16.1 任务与奖赏

16.2 K摇臂赌博机

16.3 有模型学习

16.3.1 策略评估

猜你喜欢

热点阅读