Reinforcement Learning

2019-01-02 本文已影响0人 running__girl

创建 $Q$ table（pandas.DataFrame( np.zeros(n_states, len(actions)), columns = actions) ），这个table横轴是state第几步纵轴是动作action，通过 $Q$ 值把所有的state $s$ 和 action $a$ 对应上，选动作的时候就根据 $Q$ 值和state，以及环境变量的feedback。

预定义global变量：n_states=6 表示在环境中出发点距离目标的baseline步数，actions=['left','right']表示有哪些可以选择的动作， $ε=0.9$ 表示greedy policy也就是随机的大于90%的情况选择价值最大的action其余10%的情况， $α=1.1$ 表示学习率， $γ=0.9$ 表示对未来奖励的一个衰减值，episode表示最多训练多少个回合，fresh_time表示每走一步花多长时间。

Initialize $Q(s,a)$ arbitrarily

Repeat (for each episode):
Initialize $s$

Repeat (for each step of an episode):
choose $a$ from $s$ using policy derived from $Q$ (e.g. ε-greedy)
take action $a$ , observe $r, s^\prime$
$Q(s,a)\leftarrow Q(s,a) + α [ r + γ \cdot max_{a^\prime} Q(s^\prime,a^\prime) - Q(s,a) ]$
$s\leftarrow s^\prime$

until $s$ is terminal

Reinforcement Learning

猜你喜欢

热点阅读