The Bitter Lesson by Sutton

2019-05-19  本文已影响0人  辣么大大大大

分享Sutton的一篇博客。Sutton是强化学习的大拿,经典的算法RTDP就是他提出的。

痛苦的教训

文章链接 the bitter lesson

今天又读了一遍Richard Sutton的这篇博客。在这篇博客中,Sutton总结了AI研究的近几十年取得的进步的原因和教训。

文章中称AI取得显著的进步靠的不是依赖人的领域知识(例如象棋、围棋、语音识别),而是靠算力、搜索和学习(Search and Learning)。试图将人的领域知识解决问题短期内会取得一定效果,但长期看,取得长足进步的方法是不依赖于领域知识的。例如语音识别,一帮语言学家搞了几十年都没什么效果,离实用还差的很远,在贾里尼克提出了基于统计的语音识别方法后,语音识别才有了实用的可能。

Sutton说:

we should build in only the meta-methods that can find and capture this arbitrary complexity. Essential to these methods is that they can find good approximations, but the search for them should be by our methods, not by us. We want AI agents that can discover like we can, not which contain what we have discovered. Building in our discoveries only makes it harder to see how the discovering process can be done.

Sutton也认同强化学习采用元学习的方法(Learning to Learn)。在下面这篇综述文章中,介绍了“强化学习的快与慢”,提到了 episodic-meta RL(事件-元强化学习) 接下来可以看看:

Reinforcement Learning, Fast and Slow

上一篇 下一篇

猜你喜欢

热点阅读