深度强化学习基础到前沿

机器博弈 (三) 虚拟遗憾最小化算法

2020-01-31  本文已影响0人  小小何先生

虚拟遗憾最小化算法(Counterfactual Regret Minimization)

  有了这些定义之后,我们现在来计算虚拟遗憾:

v_{i}(\sigma,h)=\sum_{z \in Z} \pi_{-i}^{\sigma}(h)\pi^{\sigma}(h,z)u_{i}(z)

  我们首先去计算其他玩家在产生行动序列h中他们的概率值是多少,乘以在这个策略下,从行动序列h进入到终止局势z的概率,最终再乘以玩家i在终止局势z的概率。之后对终止局势做一个遍历,把它的乘积做一个累加。

r(h,a)=v_{i}(\sigma_{I \rightarrow a},h) - v_{i}(\sigma,h)

r(I,a)=\sum r(h,a)

Regret_{t}^{T}(I,a)=\sum_{t=1}^{T}r_{i}^{t}(I,a)

Regret_{i}^{T,+}(I,a) = max(R_{i}^{T}(I,a),0)

\sigma_{i}^{T+1}(I,a) = \left\{\begin{matrix} \frac{Regret_{i}^{T,+}(I,a)}{\sum_{}a \in A(I)Regret_{i}^{T,+}(I,a)}& if \sum_{a \in A(I)}Regret_{i}^{T,+}(I,a)>0\\ \frac{1}{|A(I)|} & otherwise \end{matrix}\right.

例子-库恩扑克(Kunh's pocker)

游戏规则表

库恩扑克(Kunh's pocker):以先手玩家(定义为玩家A)为例的博弈树:

博弈树

  从初始节点开始,1、2、3分别表示玩家A手中的牌,当玩家拿了1之后,玩家B只能拿2或者3。玩家A选择过牌还是加注,玩家B也可以选择过牌还是加注。依次进行下去,就构建了博弈树。

1_{玩家A拿到大小为1的纸牌}\rightarrow 1P_{玩家A采取过牌行动} \rightarrow 1PB_{玩家B采取加注行动}

  可见信息集1PB所对应的行动序列为{P,B}

有了上述定义之后,我们可以采取如下算法进行策略选择:

  1. 初始化遗憾值和累加策略表为0
  2. 采用随机选择的方法来决定策略
  3. 利用当前策略与对手进行博弈
  4. 计算每个玩家采取每次行为后的遗憾值
  5. 根据博弈结果计算每个行动的累加遗憾值大小来更新策略
  6. 重复博弈若干次
  7. 根据重复博弈最终的策略,完成最终的动作选择

计算1PB的遗憾值

  由于在 \{1PB\}节点选择加注和过牌的概率均为50%,所以当前策略下,从行动序列h到达终结状态z_{1}z_{2}的概率分别为:

\pi^{\sigma}(h,z_{1})=0.5,\pi^{\sigma}(h,z_{2})=0.5

  又已知u_{A}(z_{1})=-1u_{A}(z_{2})=-2,可知当前策略的虚拟价值:

v_{A}(\sigma,h)=\pi_{B}^{\sigma}(h) \times \pi^{\sigma}(h,z_{1}) \times u_{A}(z_{1})+\pi_{B}^{\sigma}(h) \times \pi^{\sigma}(h,z_{2}) \times u_{A}(z_{2}) \\ = 0.5 \times0.5 \times (-1) + 0.5 \times 0.5 \times (-2) = -0.75

v_{A}(\sigma_{\{ 1PB\}\rightarrow P}, h) = \pi_{B}^{\sigma}(h) \times \pi^{\sigma}(h,z_{1}) \times u_{A}(z_{1})=0.5 \times 1 \times (-1) = -0.5

r(I,P)=r(h,P)=v_{A}(\sigma_{\{1PB\}\rightarrow P},h)-v_{A}(\sigma, h)=(-0.5)-(-0.75)=0.25

image image

  可见,算法得到的解与理论得到的解之间较为接近,验证了算法的有效性。

微信公众号

公众号介绍:主要研究分享深度学习、机器博弈、强化学习等相关内容!期待您的关注,欢迎一起学习交流进步!

上一篇 下一篇

猜你喜欢

热点阅读