强化学习算法回顾 Q-learning 玩 OpenAI 的 T

2020-07-07  本文已影响0人  AI研习社

本文首发作者 Ray906 发表于专栏 · AITrust

这里使用的是 OpenAI Taxi-V3 环境

这里有 4 个地点,分别用 4 个字母表示,任务是要从一个地点接上乘客,送到另外 3 个中的一个放下乘客,越快越好。


截屏2020-07-05 下午1.41.40.png

Step-0--安装依赖

需要 3 个库:

Step-1--创建环境

Step-2--创建-Q-表并初始化

qtable = np.zeros((state_size, action_size)) # 初始化 Q 表
print(qtable)

Step-3--超参数设置

明确超参数:

total_episodes = 50000# 一共玩多少局游戏
total_test_episodes = 100# 测试中一共走几步
max_steps = 99# 每一局游戏最多走几步

learning_rate = 0.7# 学习率
gamma = 0.618# 未来奖励折扣率# 探索相关参数
epsilon = 1.0# 探索概率
max_epsilon = 1.0# 一开始的探索概率
min_epsilon = 0.01# 最低的探索概率 
decay_rate = 0.01# 探索概率的指数衰减概率

Step-4--Q-learning-算法

Step-5--使用-Q--表来玩-Taxi--


AI 研习社已经和阿里大文娱、旷视、搜狗搜索、小米等知名公司达成联系,帮助大家更好地求职找工作,一键投递简历至 HR 后台,准备了一些内推渠道群。

欢迎大家添加研习社小学妹微信(aiyanxishe),小学妹拉你加入(备注求职)。

a
上一篇下一篇

猜你喜欢

热点阅读