鹰与鸽子游戏 看博弈人生
原创 2019/7/16 逐鹿家书
Photo by Randy Fath on Unsplash最近在新闻报道中反复听到“鹰派”这个名词。它到底代表什么意思?
与鹰相反是鸽子。鸽子是如何在鹰群中博弈?
在理查德·道金斯 (Richard Dawkins) 的著名著作《自私的基因》中,他从进化生物学家的角度扩展了约翰·梅纳德·史密斯 (John Maynard Smith) 关于进化稳定策略(ESS)的观点,解释自然界如何最终达到平衡。
它背后的理论基础就是博弈论,而博弈论的核心是做出更好的决策。
作为管理者、投资者,或者是一家之主的你,希望确保每天为自己、公司和家庭做出更好的决策。鹰与鸽子的故事也许可以给你一些启示。
在进入故事前,让我们快速回顾博弈论,以防你已经遗忘或可能没有听过它。
我们玩游戏吧!
博弈论是研究玩家之间冲突与合作的数学模型。创始人之一,天才数学家冯·诺依曼 (John von Neumann) 1944年奠定了概念基础。从那时起,博弈论在经济学、政治、军事和公司战略中流行起来。
《博弈论与经济行为》于1944年由普林斯顿大学出版社出版,被誉为“博弈论中的圣经”冯诺依曼本人加入了兰德公司 (RAND Corporation),这是冷战时期美国政府重要的智囊机构,对博弈论的研究与应用有很大的贡献。
我在大学时期开始接触博弈论,但所知非常肤浅,直到2001年,电影《美丽心灵》上映。罗素·克劳扮演传奇人物约翰·纳什(John Nash),再次燃起我对博弈论的兴趣。
罗素·克劳扮演传奇人物约翰·纳什 (John Nash),1994年纳什获得诺贝尔经济学奖博弈论作为解决问题的工具,协助美国在冷战中取得胜利。换上日本著名博奕论家川西谕的说法,「它的重点在于不只是看自己,也同时俯瞰他人相互依赖的关系,掌握问题的整体样貌,拓展空间上的视野来理解问题的构造。」
博弈是指多人之间的相互作用,其中每个人的收益都受到其他人的决定影响。它主要集中在三个方面:
1. 玩家 - 通常不止一个(>2)
2. 策略 - 玩家的行为选项
3. 回报 - 玩家的奖励或结果
博弈论假定每一个玩家都是按照个人利益而理性地行动。在生物世界里,寻求生存和传递基因就是最主要的目的。
囚徒困境
由兰德公司两位研究员提出的「囚徒困境」,是博弈论中最广泛提到的例子。基本前提是如何在两名被捕并面临潜在监禁的帮派成员之间建立一个互利的战略。
规则如下:
1. 游戏玩家为囚犯A和囚犯B。
2. 两名囚犯不能交流。
3. 如果A和B都举报对方,他们都要服刑2年。
4. 如果A背叛B但B保持沉默,A将被释放,B将被监禁3年(反之亦然)。
5. 如果A和B都保持沉默,他们两人只服刑1年。
下面的矩阵描述了不同的选择,数字表示根据每个选择囚犯A和B服刑的年数。
囚徒困境 (Prison Dilemma)他们应该选择哪种策略?想知道答案,我们必须孤立地看待每一个人的行动。
从囚犯A的角度考虑游戏。假设他知道B会保持沉默。他应该如何回应?
A应该认罪,如果他保持沉默,他将在监狱里呆一年。但如果他出买B,他就马上被释放。
认罪对A产生更好的结果。在这种情况下,只要他知道B保持沉默,那么他只需比较两者的收益就可以作出选择,他大可不用考虑B的结果,这跟他的选择没有关系。
但假设A知道B会招供。他该怎么办?
同样,只要比较认罪与保持沉默的后果,答案就显而易见。
认罪再次是更佳选择:认罪导致2年的监禁,而沉默则意味着3年。所以如果B认罪,A也会想认罪。
把这两条信息放在一起,我们得出了一个重要的结论——不管B的策略如何,A最好还是坦白!
A可以忽略他认为B会做的任何决定,因为在任何情况下认罪都会减少他监禁的时间。
让我们切换到B的视角。假设她知道A会保持沉默,即使我们知道他不应该这样。她该如何选择?
像之前一样,B应该认罪,因为她出买A就可马上释放。
最后,假设她知道A会招供。她应该如何回应?
毫不奇怪,她也应该认罪,她可以少一年的牢狱之灾。不管A做什么决定,还是认罪比较有利。
我们达成了一个结论:两个囚犯认罪,大家都在监狱里度过两年。像很多电影情节,由于审问者的机智,司法取得了胜利!
这结果使许多刚进入博弈论领域的人感到困惑。将<沉默、沉默>的结果与<认罪、认罪>结果进行比较:大家服刑一年和两年!
如果成功协调,沉默不是对双方都更有利吗?
然而,囚徒困境中给定的回报,我们看到选择的倾向性。就是不管你猜测对方会做什么选择,总是有一个策略比另一策略有更佳的回报,它成为主导性的策略。
认罪主导了两个囚犯的理性判断,虽然沉默才是对双方最好的结果。
这个游戏很大程度上证明了人性的特征。理性的个人利益驱动玩家选择背叛同伴,认为这样他会得到更好的结果。他们不会考虑到:互利的选择反而是保持沉默。
这也是许多贸易谈判或价格竞争中,常常出现的情况,揭示人类在这类游戏中缺乏合作的内在倾向。
美丽心灵创造「纳什均衡」
博弈论者通常用“主导策略”和“纳什均衡”这两个术语来区分玩家所遵循的策略类型。
这两个术语通常一起使用,形成了博弈论建立的基础。在囚犯困境例子中,玩家的主导策略是背叛/认罪。
主导策略不等同纳什均衡,在约翰纳什眼里,寻找游戏中的平衡点才是他最关心的议题。
纳什均衡之所以如此特殊,是因为它假定在每一个博弈中至少有一个平衡点,所有的博弈者都会更好地找到它并围绕它形成策略。这一重大启示帮助政治、战争、经济、商业和社会更好地了解世界,形成更好的战略。
即使在高水平的竞争游戏中(谷歌对苹果,美国对中国),也存在一种“均衡”。在这种平衡下,双方都非常了解对方,并坚持己方的战略。例如,在囚犯困境中,纳什均衡是矩阵的左上角,即合作。
鹰和鸽子
看到这里,如果你开始对博奕论产生好奇,我们再来看看鹰和鸽子的游戏。
在这个例子中,我指的不是美国外交政策中的“鹰派”,有趣的是,他们行为中有很多相似的地方。或许ESS博弈论可让我们洞察特朗普总统在全世界发起贸易战的走向。
从定义上讲,老鹰总是尽其所能地战斗,只有遇到严重受伤时才撤退。相反,鸽子的策略是威胁,从不伤害他人。
鹰的策略是攻击,不息代价。鸽子使用展示策略来消磨对手,直到敌人放弃,鸽子就赢了。
作为一个纯粹的假设,我们分配参赛者“分数”。赢50分,输0分,重伤-100分,耗消时间被罚10分。
只要鹰遇到鸽子,鹰总是赢,得50分,鸽子是0。
鹰面对另一只鹰,它有一半的胜负机会。如果A鹰赢了,它得到50分,0分是输的,100分是严重受伤的。因此,每次战斗的平均预期回报率在+50到-100之间,即-25。
当两只鸽子相遇时,同样每只鸽子有一半输赢的机会,平均收益等于50除以2,减去10分消耗的时间,即+15。
回报的结果如下:
我们尝试用数学公式来表示,博奕论作为一种数学模型,经常用代数、甚至微积分来计算不同策略的价值:
V代表胜利 = 50,C是付出代价 = -100。
鹰对鸽子:鹰总是赢(鸽子撤退)所以,50 对 0
老鹰对老鹰:两场比赛都赢了一半,所以,(V - C)/2 = -25
鸽子:总是展示,各赢了一半时间,等于 V/2 – 10 = 15
为了讨论的目的,我们假设胜利(V)小于代价(C),所以你可以看到左上角显示负25,这并不是有利的状态。一个更好的策略,在这个矩阵中将是右下角,当双方采取鸽子策略并各自获得15分。
现实中鹰派和鸽派的赛局没那么简单。当V值很高时,玩家会全面倒向老鹰的策略,成为主导策略 —— 即<老鹰对老鹰>。但动物世界里会产生不平衡的状态,导致老鹰自伤殘杀。
但当V值较低于C值,博弈将有一个以上的纯策略纳什均衡 (PSNE) 和一个混合策略纳什均衡 (MSNE)。
如前所述,博弈论学者用预测的价值构建数学模型和算法,最终得出鹰与鸽子的最平衡的比例。
眼前美中或是日韩的贸易谈判,可以说是在寻找这个V与C值的平衡点。
Photo by Randy Fath on Unsplash在过去博奕论还没有出现前,我们只看到所谓的零和赛局 (zero sum game),就是所有玩家的利得加起来等于零的赛局。
有人说商业社会就是零和游戏,但博奕论告诉我们只要我们愿意彼此合作,产生价值,其中或许各自能获得更大的利益。这需要积极的沟通、站在别人立场考虑,从而建立信任的关系。
生活如果像一场游戏,那我们就好好玩吧!