博弈论-落后的感应：国际象棋、战略和可信威胁

2019-03-04 本文已影响0人 CSTDOG

游戏：Zermelo 理论

参与人：2 players
完全信息博弈：一旦轮到某个人做决定时，他完全清楚的知道这个博弈前的变化，也就是说这些有顺序的决定都是在完全掌握信息的情况下做出的。
游戏约束：这是个有限节数的游戏，不会无限延展循环下去
游戏结果：
- 一号参与人获胜，W1
- 一号参与人落败，L1
- 平局，T
结论(可利用归纳证明法证明下面结论)：
- 作为参与人时有绝对把握胜利，参与人2落败
- 平局
- 作为参与人2时绝对有把握胜利，参与人1落败
应用：国际象棋在完全信息博弈下进行有限次循环是有解的，可以达到平局状态
归纳法证明理论：
1551608103(1).jpg
1551616651(1).jpg

游戏：石子

规则：有m*n的石子阵列，如果一个人选择了其中一块石头，我就会把所有处在这个石头左边和正上面之间的所有石子拿走，拿到最后一个石子的就是失败者
上述理论说明，这个博弈必定有解，而解的结果是什么由N和M决定
思考题：这个解是什么？也就是说这游戏的技巧是什么？
定义1：完全信息博弈：在任一个节点上，或者说每个节点上的被轮到的参与者，都知道自己处在整个博弈的哪个节点的博弈（节点：树形图），也就是说参与者知道自己怎么走到该位置。
定义2：一号参与人的纯策略是一个完整的行动计划，也就是说，这个纯策略明确了一号将在每一个节点采取怎样的策略

游戏

image.png

问题：在这里二号参与人的策略是什么？
- 如果参与人1选D，则参与人2不需要选择，如果参与人2需要选择，则参与人2选择r，在做逆向归纳时需要对后续节点进行考虑
- 参与人1在这里一共有四种策略：[u/u,u/d,d/u,d,d]，虽然1第一步选择d的时候，不需要进行第二次选择，但是仍然要考虑2做出选择时，本身应该要怎样选择
收益矩阵：不使用逆向回归法，可以利用下表找纳什均衡，NE=(DDR,DUR)

策略	L	R
u/u	2,4	0,2
u/d	3,1	0,2
d/u	1,0	1,0
d/d	1,0	1,0

从这个游戏中可以知道，不能机械的找纳什均衡，在这个游戏中纳什均衡时，2采用的策略在1选择D后毫无意义，此时的投入就是浪费成本
结论：如果一个均衡是建立在不足信的威胁的基础上，那么后面的参与者分析并做出的策略可能没有意义

上一篇下一篇

猜你喜欢

热点阅读