Efficient Reinforcement Learning
2019-08-20 本文已影响0人
太捉急
这是一篇1994年的老文章,也是分析强化学习算法复杂度比较经典的一篇文章。废话少说,直接开看。
首先定义RL的基本概念:
- States:
- Actions:
- Transition function:
- Reward function
- Policy function
- Value function
- discount factor
- Initial state distribution
- Trajectory:
where
- Return:
Optimal Policy:
Optimal Value:
Obviously for any policy .
这里定义本文最重要的概念PAC Learner (Probability Approximate Correct) :
An algorithm
is a PAC learner if for any environment
, it produce a policy
such that:
in time polynomial in
就是说,假如有一个算法,它能在一定时间内,得到一个策略,使得
与
的误差小于
的概率大于
,这里的一定时间是关于
的多项式,那么这个算法是PAC Learner。
我们首先考虑限制步长为的MDP,
, then
For any ,
这个很容易证明, 对于 :
我们要求
那么
Use for
,