强化学习基本概念
强化学习大体框架
强化学习主要成分由Agent和Environment组成,也就是两者通过彼此的interaction来从中进行学习。Agent就是我们常说的智能体,也就是机器本身,让机器根据环境的不同来进行自我学习。强化学习的简要框架如图1所示,
figure 1框架Environment将所能观察到的(例如:图像,文字等)传达给Agent,也就是observation。随即Agent根据得到的observation来理解自己所处的状态,随后根据自己所处的状态来采取动作从而Environment会根据Agent采取的行动来给予相应的奖励或惩罚(正数和负数表示)。
强化学习是基于目标来让机器进行学习的算法。因此,在学习中,我们要给机器设定一个最终的目标。机器(也就是Agent)会根据Environment反馈回来的reward来进行动作的优化,其目的在于得到最大的reward值。
强化学习各组成部分的目的
Agent:在完成所给的目标的情况下,根据环境所给的状态,采取行动,得到最多的Reward。
为了完成这个目标,我们的Agent不能仅仅考虑眼前能得到的reward(immediate reward),还要有所眼见的才行。因此,需要有value function来计算即将得到的奖励和未来的奖励的总和,同时还需要制定policy,从而计算在不同state的条件下,采取不同action的概率。
Environment:根据Agent的不同行动,改变环境,将其反馈回给Agent,并通过传递的reward来判断Agent采取动作好不好。
在Environment中,reward是必不可少的,可以通过它来改变Agent的动作。其次,需要给出transition probability(也就是我们所说的model),该目的是为了给出Agent在特定state的条件下采取不同动作的概率,也可以理解为在不同环境下,Agent采取不同动作的概率。
Returns的计算
Returns其实就是我们所说的采取相应动作所能得到的奖励(rewards)。公式如下:
公式1从公式可以看出,我们的Agent很有远见意识,并且把未来发生的奖励和现在将要得到的奖励放在了同等重要的地位上。从当前时刻的状态到最终结束状态被称作一个片段(episode),每个时刻的状态被称作一个task(episodic task)。
往往我们不会将将来的reward和当前reward放在同等重要的地位上,因此我们需要加入discount这个元素。公式如下:
公式2这样将来的reward会被Agent考虑的越来越弱。
Reference
1. Reinforcement Learning An Introduction