博弈论4:不纵容,但要宽容
接下来这几讲我们专门研究合作与背叛。防止背叛,最直观的办法就是把单次博弈变成重复博弈。
为什么旅游景点的饭菜质次价高?因为那是单次博弈。你下次就不来了,他能骗一把是一把。而像麦当劳这样的连锁店,哪怕是开在旅游景点,也会保证质量,因为它要为整个品牌的声誉负责。很多商家说我们要做一百年,有些商店搞会员制,这些都是重复博弈。
重复博弈之所以有效,是因为背叛者会受到惩罚。最直接的惩罚就是下次我也背叛你,让你得不到合作的好处。这一讲咱们专门说说惩罚。
1.美国往事
以前有些阴谋论者认为这个世界是被某些秘密组织控制的,比如什么“罗斯柴尔德家族”“骷髅会”“共济会”之类,其实都是些无稽之谈。并不是说没有人想秘密控制世界,而是这个世界实在太大也太复杂,你根本就控制不了 —— 更不用说用秘密的方法控制。
但是,美国历史上曾经有过一个非常成功的秘密组织 [1]。它的成员都是有钱人,不但有钱而且还对组织无比忠诚。组织成员视彼此为亲人,有生意通常只跟内部的人做,对外甚至根本不透露组织的存在。组织1890年代诞生于纽约,到1920年代就把势力扩大到了全国,而美国社会一直到1940年代才知道它的存在。
这个组织就是……美国的黑手党。
博弈论专家大卫·麦克亚当斯(David McAdams)在《游戏改变者》[1] 这本书里说,一群人要想合作,至少要满足下面两个条件中的一个 ——
第一,是合作对自己有好处,人们本来就想合作。
第二,是不合作会受到惩罚。
而美国黑手党,同时满足上面这两个条件。黑手党给好处,黑手党有纪律。最关键的一条纪律就是谁敢出卖组织,他就会被杀死,而且还是派他的亲友去杀他。
如果背叛会受到惩罚,那就不是囚徒困境了。博弈论认为有效的惩罚必须得满足几个条件。首先你得能发现背叛行为。然后惩罚必须得是可信的,对方知道他一定会受到惩罚。再者,惩罚的力度得足够。
比如说,世界贸易组织(WTO),就不是一个很善于惩罚的组织。如果哪个成员国没有履行义务,世贸组织可能会发起一个调查。而这个调查会历时几个月,甚至几年。就算调查形成了结论,也不一定能被执行。那你说加入世界贸易组织之后,你的最佳策略是合作还是不合作呢?
我们看电视里的毒品交易,这边出一箱毒品,那边出一箱钱,本来这个交易挺公平为啥说着说着突然火并了呢?那是因为背叛的好处大大超过了惩罚的力度。两边没有组织关系,所谓惩罚无非就是下次这个生意做不成了。可是这笔交易的数额实在太大,干了这一票我们就可以退休了。为了避免这样的情况,你应该把每次交易的额度降低,让对方认为背叛不值当。
而这些对黑手党都不是问题。一直到1963年之前,居然都没有一个人敢于在法庭上承认黑手党这个组织的存在!1970年美国国会通过法案保护黑社会污点证人,但是没用。一直到1991年,因为黑手党内部矛盾爆发,有一位重量级人物反水,美国反黑才取得了重大突破。
胡萝卜加大棒,有好处有惩罚,这样的合作关系是非常稳定的。
2.稳定与脆弱
但是一般组织可没有黑手党那么稳定。中国有句话叫“堡垒最容易从内部攻破”,我们看看这句话在博弈论中怎么用。
有时候几家企业会在市场上联合起来,组成叫做“卡特尔(Cartel)”的垄断组织,去控制某一种产品的产量和价格。这种行为是政府所不允许的,但是很难找到证据。
1993年,美国司法部推出一项政策,保证给第一个承认自己参与了卡特尔的企业免除一切罪责。这个政策收到了奇效,很多企业站出来举报同伙。
那我们对比一下,同样是面对举报免责的条件,为什么黑手党就这么稳定,卡特尔就这么脆弱呢?一个是卡特尔对内部成员没有特别强有力的惩罚措施,另一个原因可能是黑手党是个非常特殊的组织。美国黑手党主要由意大利移民组成,特别强调用家庭和亲缘关系增加互信,而一般的组织没有这样的凝聚力。
利益和惩罚只是硬条件。如果内部没有起码的信任,合作就是脆弱的。
这里我们可以学习一点物理学家的思维。物理学家从来都不是只考察一个情景的可实现性,还要考虑它的稳定性。比如牛顿能算出来地球怎样绕着太阳转,但是牛顿曾经非常担心地球公转轨道的稳定性。如果有个微小的扰动,比如被一个什么小行星撞击一下,地球会不会就脱轨了呢?后来是数学家拉普拉斯证明了行星轨道是稳定的,大家才算放心。
再比如说,爱因斯坦研究给广义相对论的场方程增加了一个宇宙学常数,的确得到了一个宇宙的静态解。但是马上就有数学家证明,说你这个静态解是不稳定的,有点扰动就会坍缩或者膨胀,那么人们就意识到宇宙不可能是静态的。
博弈论里也有这样的思维。我们前面讲了很多帕累托最优的局面是不稳定,所以不可能长久存在。纳什均衡态之所以如此重要,就是因为它是一个稳定的局面。
重复博弈,怎样的机制才是稳定的呢?
3.以牙还牙真的好吗?
1980年代,密西根大学的政治学家罗伯特·阿克塞尔罗德(Robert Axelrod)组织了一个博弈竞赛。博弈的内容就是囚徒困境,你要决定什么情况下合作什么情况下背叛。各路学者提交了不同的策略算法,大家两两轮流博弈,看看最后谁的收益大。
出乎意料的是,最后胜出的是一个非常简单的策略,英文叫“Tit for Tat”,一般翻译成“以牙还牙”。这个策略是 ——
1)不管跟谁,第一轮我都选择合作;
2)第一轮过后,我就复制对手上一轮的做法。
你上一轮要是跟我合作,我下一轮也跟你合作。你要是背叛了我,我下一轮也背叛你。如果你在哪一轮又选择合作了,那我还继续和你合作。我合作,我报复,我原谅,我只是模仿你上一轮的动作。
这其实就是我们专栏以前说过的“黄铜法则” —— 别人怎么对我,我就怎么对别人。用咱们中国话说,就是“人不犯我,我不犯人,人若犯我,我必犯人”。
阿克塞尔罗德觉得这也太简单了,肯定有更好的办法!他又组织了第二次竞赛,更多的博弈论专家参与进来,出现了更复杂的算法,结果最后胜出的还是这个以牙还牙。
以牙还牙,简单、粗暴、有效。
我们想想,以牙还牙策略有意思的一点在于它和任何一个对手博弈的时候,都是最多打成平手。双方要么就是合作,要背叛的话对手还可能比他多占一轮的便宜。可就是这样,最后算总账的时候,它的收益超过所有人 —— 因为它既不当冤大头,也不作死。这是一个保守的策略,就好像是个以直报怨的老实人。
但是最后老实人胜出了!这是一个多么令人高兴的发现。
后来阿克塞尔罗德写了一本书叫《合作的进化》,现在已经是名著了。人们从这本书中看到了人类文明的希望,我们终究将会走向合作。这本书的意义我们后面还会再讲。
但是你可能不知道的是,以牙还牙其实是一个脆弱的策略 [2]。
这个策略对错误很不友好。计算机模拟总是精确的,但真人博弈可能会操作失误。我们设想有两个人都是按照以牙还牙的策略博弈。一开始你俩一直都是合作,但是在某一轮,他操作失误了,或者是你判断失误了,结果你把合作当成了背叛。然后下一轮你就会报复他。而这又导致再下一轮他要报复你……你们就陷入了一个再也无法合作的死循环。
这不就是冤冤相报吗?就像巴勒斯坦和以色列,两边几十年的世仇,旧的伤口还没抹平又添新的仇恨,怎么调解都调解不好。他们都不是坏人,也许他们只是以直报怨的老实人。
我们在生活中有时候也这样。小孩打一架过两天还能和好,可是成年人讲原则,两个好朋友因为一次误会就可能一辈子都不交往了。
所以在真实世界中,以牙还牙并不是最好的策略,它不够宽容。博弈论专家提出一个改进版的以牙还牙:对方背叛我一次,我继续合作;只有当对方连续背叛我两次,我再报复。研究表明,在有可能出错的博弈中,这个办法的效果比以牙还牙更好。
真实生活中别人可能犯无心的错,你可能误判。中国人有句话叫“退一步海阔天空”,强人通常不喜欢这句话,但是其实这句话很有道理 —— 宽容能避免脆弱。不过请注意,这句话的关键词是“一步”。退一步是宽容,退两步就是纵容了。
| 禅定时刻
说到这里我就不禁想起钱锺书小说《围城》的结尾。方鸿渐跟妻子孙柔嘉闹矛盾。方鸿渐在回家的路上“蓄心要待柔嘉好”,而在家中等丈夫回家吃饭的孙柔嘉也在“希望他会跟姑母和好,到她厂里做事”。两人都抱着良好的愿望,希望达成合作。
结果一见面说了几句话又翻脸了,还动手了。
有人说《围城》的主题,并不是说什么婚姻是个围城,而是说人无法掌控自己的命运。方鸿渐不知道因为啥就跟孙柔嘉结婚了,也不知道因为啥就婚姻破裂了。
总是事情改变人,人改变不了事情。人改变不了博弈。
但真的是这样吗?本来是想合作的,怎么就不能合作呢?如果有一方能宽容一点,被冒犯了再给对方一次机会,也许就不会是这样悲剧的结局。
参考文献
[1] David McAdams, Game-Changer: Game Theory and the Art of Transforming Strategic Situations (2014).
[2] Avinash K. Dixit and Barry J. Nalebuff, The Art of Strategy: A Game Theorist's Guide to Success in Business and Life (2008).