深度强化学习基础到前沿

机器博弈 (一) 入门简介

2020-01-31  本文已影响0人  小小何先生

现代博弈论建立

  现代博弈论的建立得从1944年算起,1944年冯·诺依曼的《博弈论与经济行为》以数学形式来阐述博弈论及其应用,标志着现代系统博弈理论的初步形成。冯·诺依曼被称为现代博弈论之父。

  博弈论(game theory),也被称为对策论。博弈者在博弈过程中的行为(action)被称作博弈行为。

  博弈行为解释:带有相互竞争性质的主体,为了达到各自目标和利益,采取的带有对抗性质的行为

  博弈论主要研究博弈行为中最优的对抗策略及其稳定局势,协助人们在一定规则范围内寻求最合理的行为方式。

博弈的要素

博弈论研究的基本范式

  博弈论研究的基本范式:建模者对参与者(player)规定两样东西:1.可采取的策略集(strategy sets);2. 取得的收益。观察:当参与者选择若干策略以最大化其收益时会产生什么结果。最终要实现:两害相权取其轻,两利相权取其重。

囚徒困境

  警方逮捕了共同犯罪的甲、乙两人,由于警方没有掌握充分证据,所以将两人分开审讯。假定条件:

  1. 若一人认罪并指证对方,而另一方保持沉默,则此人会被当即释放,沉默者会被监禁10年;

  2. 若两人都保持沉默,则根据已有的犯罪事实(无充分证据)两人各判半年;

  3. 若两人都认罪并相互指证,则两人各判5年。

  参与者:甲、乙。

  规则:甲、乙两人分别决策,无法得知对方的选择。

  策略集:认罪、沉默(纯策略)。

乙沉默 乙认罪
甲沉默 二人各服刑半年 乙被释放,甲服刑10年
甲认罪 甲被释放,乙服刑10年 二人各服刑5年

  囚徒困境均衡解产生的原因:对两人而言认罪的收益在任何情况下都比沉默的收益高,所以两人同时认罪是一个稳定的局势。

  囚徒困境表明稳定局势并不一定是最优局势

博弈分类

  囚徒困境是一种非合作、不完全信息的静态博弈。

纳什均衡

  在博弈论中有一个重要的概念:纳什均衡。

  纳什均衡的本质就是不后悔

混合策略下纳什均衡的例子

  即参与者于一定概率选择策略。混合策略纳什均衡:博弈过程中,博弈方通过概率形式随机从可选策略中选择一个策略而达到的纳什均衡被称为混合策略纳什均衡。

image

  这里的参与者

  规则

  混合策略集

  若雇主检查的概率为\alpha,雇员偷懒的概率为\beta

收益表
  由纳什均衡:其他参与者策略不变的情况下,某个参与者单独采取其他策略都不会使得收益增加。也就等价于无论雇主是否检查,雇员的收益都一样;无论雇员是否偷懒,雇主的收益也都一样。

  于是有T_{1}=T_{2}以及T_{3}=T_{4}

  在纳什均衡下,由于T_{3}=T_{4},可知雇主采取检查策略的概率(雇主趋向于用这个概率去检查):

\alpha = \frac{H}{W+F}

  在纳什均衡下,由于T_{1}=T_{2},可知雇员采取偷懒策略的概率(雇员趋于用这个概率去偷懒):

\beta = \frac{C}{W+F}

  在检查概率为\alpha之下,雇主的收益:

T_{1}=T_{2}=V-W-\frac{CV}{W+F}

  对上式W求导,则当W=\sqrt{CV}-F时,雇主的收益最大,其值为:T_{max}=V-2\sqrt{CV}+F

  由混合策略下纳什均衡可知,雇主和雇员分别倾向于以某种概率采取策略。

我的微信公众号名称:深度学习与先进智能决策
微信公众号ID:MultiAgent1024
公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

上一篇 下一篇

猜你喜欢

热点阅读