[Deep Learning] 增强学习

2018-09-28  本文已影响0人  舒也ella

本文是Deep Learning Course总结系列的第六篇,本文的主要内容是对增强学习进行介绍。
本系列前四篇传送门:第一篇 [Deep Learning] 神经网络基础;第二篇 [Deep Learning] 卷积神经网络 CNNs;第三篇 [Deep Learning] 集成学习Ensemble Learning&迁移学习Transfer Learning ;第四篇 [ [Deep Learning] 递归神经网络RNN ](https://www.jianshu.com/p/5c22b41e9f07)。

Bandits

随机算法
UCB
应用: 广告推送等conditional bandits、rounding

基本模式

Agent根据当前State来确定下一步的Action并获得Reward,State到Action的映射关系为Policy一般用\pi表示。任务的目标是找到最优的Policya=\pi(s)\pi(a|s)使得获取尽可能多的Reward。

Agent交互
发展史

马尔科夫决策过程(控制)-> 动态规划 (value func)-> Q-learning
model-based
有限状态
model-free 基于sample
Q-learning- \varepsilon -greedy
Q-learning- UCB

上一篇 下一篇

猜你喜欢

热点阅读