强化学习
16.1 任务与奖赏
学习从环境状态到行为的映射,使得智能体选择的行为能够获得环境最大的奖赏,使得外部环境对学习系统在某种意义下的评价(或整个系统的运行性能)为最佳。
以种瓜为例,若将好瓜最为奖励,只有等我们收获西瓜时,我们才直到奖励的大小。但是种瓜过程中的一些动作(如施肥),并不能获得最终奖赏,仅能得到一个当前反馈(如瓜苗更加健壮了)。我们需要多次种瓜,在种瓜过程中摸索。然后总结出好的种瓜策略。将这个过程抽象出来,就是强化学习。

马尔可夫决策过程

策略有两种表示方法:
- 确定策略,在某个状态上采用固定的动作
-
随机策略,某个状态上采用的动作是概率分布
奖赏
3.jpg
策略的好坏由奖赏决定,强化学习任务中,学习目的就是就是找出能使长期累积奖赏最大化的策略。
16.2 K摇臂赌博机
模型
K摇臂赌博机有K个摇臂,赌徒在投入一个硬币后可选择按下其中一个摇臂,每个摇臂以一定概率吐出硬币,但这个概率赌徒并不知道。赌徒的目标是通过一定的策略最大化自己的奖赏,即获得最多的硬币。
仅探索法——将所有的尝试机会平均分配给每个摇臂,最后将每个摇臂各自的平均吐币概率作为其奖赏期望的近似估计。
仅利用法——按下目前最优的摇臂,若有多个摇臂同为最优,则从中随机选取一个。
仅探索法可以很好的估计每个摇臂的奖赏,却会失去很多选择最优摇臂的机会;仅利用法则相反,它没有很好地估计摇臂期望奖励,很可能经常选不到最优摇臂。
探索和利用两者是矛盾的,由于尝试次数有限,加强一方则会削弱另一方,这就是强化学习面临的探索——利用窘境。一般我们会找出一个很好的折中,以达到奖赏最大。
ε-贪心
以ε的概率进行探索,以1-ε的概率进行利用。

上面是平均奖赏的两种计算方法,第二种只需要记录两个值,比较适合编程。

softmax(略)
对于多步强化学习任务,一种直接的办法就是将每个状态上动作的选择看作一个K摇臂赌博机问题,用强化学习任务的累积奖赏来代替K摇臂赌博机算法中的奖励函数,即可将赌博机算法用于每个状态。
局限:没有考虑强化学习任务马尔可夫决策过程的结构,忽视了决策过程之间的联系。
16.3 有模型学习
若学习任务中的四个要素都已知,即状态空间、动作空间、转移概率以及奖赏函数都已经给出,这样的情形称为“有模型学习”。假设状态空间和动作空间均为有限,即均为离散值,这样我们不用通过尝试便可以对某个策略进行评估。
16.3.1 策略评估
前面提到:在模型已知的前提下,我们可以对任意策略的进行评估(后续会给出演算过程)。一般常使用以下两种值函数来评估某个策略的优劣:
状态值函数V:V(x),即从状态x出发,使用π策略所带来的累积奖赏;
状态-动作值函数Q:Q(x,a),即从状态x出发,执行动作a后再使用π策略所带来的累积奖赏。