【机器学习】(八)强化学习的基本概念、e贪心算法、Softmax

2020-01-12  本文已影响0人  超级超级小天才

强化学习(reinforcement learning,RL)是机器学习的一个领域,主要通过在环境(environment)中采取动作(action),来最大化某些指标,例如累计奖赏(cumulative reward)的一种学习方法。强化学习有监督学习(supervised learning)与无监督学习(unsupervised learning)三者共同构成了机器学习的三个重要方面

Reinforcement learning (RL) is an area of machine learning concerned with how software agents ought to take actions in an environment in order to maximize some notion of cumulative reward. Reinforcement learning is one of three basic machine learning paradigms, alongside supervised learning and unsupervised learning. (WikiPedia)

任务与奖赏

一个简单的强化学习模型如图所示

image

强化学习任务通常用马尔可夫决策过程(Markov Decision Process,MDP)来描述:机器处于环境E中,状态空间为X,其中每个状态x∈X是机器感知到的环境的描述,机器能采取的动作构成了动作空间A,若某个动作a∈A作用在当前状态x上,则潜在的转移函数P将使得环境从当前状态按某种概率转移到另一个状态,同时,环境会根据潜在的奖赏函数R反馈给机器一个奖赏。综合起来,强化学习任务对应了四元组E=<X,A,P,R>,其中P:X×A×X→R指定了状态转移概率,R:X×A×X→R(或者R:X×X→R)指定了奖赏。

如下图所示是一个在培育农作物的过程中,浇水与否(两个动作:浇水与不浇水)与农作物的状态(健康、缺水、溢水、凋亡)的马尔可夫决策过程:

image

在强化学习中,机器要做的即通过在环境中不断尝试而学得一个策略(policy)π,根据这个策略,在状态x下得到要执行的动作或者以多少概率执行动作空间中的任意动作。

在强化学习中,并没有监督学习中的有标记样本,动作是否正确以及接下来要做哪些动作,需要机器通过反思之前的动作与累积奖赏进行学习。因此,强化学习在某种意义上可看作具有延迟标记信息的监督学习问题。

探索与利用

强化学习的任务的最终奖赏是多部动作之后才能观察到的,所以对于每次的动作选择,可以分成两种情况:

事实上,“探索”和“利用”两者是矛盾的,因为尝试次数有限,加强了一方则会自然削弱另一方,这就是强化学习所面临的探索-利用窘境(Exploration-Exploitation dilemma),所以必须在探索与利用之间达成较好的折中。

ϵ-贪心算法

ϵ-贪心算法基于一个概率来对探索和利用进行折中:每次尝试时以ϵ的概率进行探索,以1-ϵ的概率进行利用。

令Q(k)表示n次动作所得到的平均奖赏,每次得到的奖赏为v1, v2, v2, …, vn,则平均奖赏为:

image

使用增量式计算平均奖赏的方式即每次通过单次奖赏与前边所有次的平均奖赏来计算本次动作后的平均奖赏:

image

在增量计算下,每次动作仅需记录两个值:已尝试次数n-1和最近平均奖赏Qn-1即可。

ϵ-贪心算法描述如下:

image

Softmax算法

Softmax算法基于当前已知的动作的平均奖赏来对探索和利用进行折中。若个动作的平均奖赏相当,则选取各摇臂的概率也相当;若某些动作的平均奖赏明显高于其他动作,则它们被选取的概率也明显更高。

Softmax算法中动作概率的分配是基于Boltzmann分布:

image

其中,Q(i)记录当前动作完成后的平均奖赏,τ>0称为“温度”,τ越小则平均奖赏高的动作被选取的概率越高,τ趋近于0时Softmax算法趋于仅利用,τ趋于无穷大时Softmax算法趋于仅探索,算法描述如下:

image

以上两种算法的好坏很难对比,也和其所取的参数有关,比如下图是一个在 2-摇臂赌博机上的性能比较:

image

全文参考:周志华 著 《机器学习》


转载请注明出处,本文永久更新链接:https://blogs.littlegenius.xin/2020/01/12/RLNotes-1/

上一篇下一篇

猜你喜欢

热点阅读