强化学习

2021-04-04  本文已影响0人  加油11dd23

https://www.cnblogs.com/pinard/p/9714655.html
https://zhuanlan.zhihu.com/p/360146610
https://www.bilibili.com/video/BV1UE411G78S?p=6
https://zhuanlan.zhihu.com/p/93404190
https://datawhalechina.github.io/easy-rl/

一、简介

概括来说,RL要解决的问题是:让agent学习在一个环境中的如何行为动作(act), 从而获得最大的奖励值总和(total reward)。
这个奖励值一般与agent定义的任务目标关联。

agent需要的主要学习内容:
第一是行为策略(action policy), 第二是规划(planning)。
其中,行为策略的学习目标是最优策略, 也就是使用这样的策略,可以让agent在特定环境中的行为获得最大的奖励值,从而实现其任务目标。

行为(action)可以简单分为:

(一)、基本结构

image.png image.png

二、方法介绍

http://fancyerii.github.io/books/rl1/
https://zhuanlan.zhihu.com/p/25239682
https://zhuanlan.zhihu.com/p/61731174

(一)、value-based

1、Q-learning

2、Sarsa

3、Deep Q network

image.png
image.png

(二)、policy-based

https://www.youtube.com/watch?v=z95ZYgPgXOY
https://zhuanlan.zhihu.com/p/75174892

image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png
image.png

(三)、目前AutoML模型压缩最常用的强化学习算法

bilibili李宏毅2020强化学习

1、A3C最基础的actor-critic算法

image.png
image.png
image.png

2、Reinforce(离散策略梯度)

3、DDPG(连续 策略梯度)

https://github.com/TianhaoFu/easy-rl
https://blog.csdn.net/kenneth_yu/article/details/78478356

image.png
上一篇 下一篇

猜你喜欢

热点阅读