博弈论2:群鸦的盛宴
博弈论是关于人在社会中如何做理性决策的理论。理性决策常常不是我们喜欢的决策。宋神宗有句话叫“快意事便做不得一件”,说的就是理性决策总是不得已的。在现有的规则之下,考虑到对手的反应,你通常没有太多选择。
面对世间种种无奈,文人总爱感慨说是人心不行或者文化不行。你学了博弈论就会发现,很多事情是这样并不是因为有人喜欢这样,这不是思想品德的问题。哪怕所有人都不喜欢这个局面,所有人却都只能维护这个局面。
有时候人们感觉简直就是身处无间地狱:每个人都在受苦,谁都没办法脱离苦海。只有博弈论能解释这样的现象。陈道明在《无间道3》里有一句话,说“往往都是事情改变人,人改变不了事情。”
往往是博弈改变人。但我们学习博弈论的终极目的,就是要改变博弈。今天咱们讲博弈论的三个基本概念:“帕累托最优”、“压倒性策略”和“纳什均衡”。
1.为什么商家总扎堆?
你注意到没有,同一类商家总爱聚集在一起。偏一点的地方什么都没有,热门地段却有好多同样的店,一个十字路口竟然会有两家加油站。新闻媒体也是这样,一有什么重大事件或者热门电视剧,你打开电视所有频道都是这个内容。从消费者的角度,我们希望加油站更分散一点,让所有人都能就近使用。我们希望产品有更多的差异化。那为什么商家非得扎堆呢?
用博弈论思考,这并不是商家都盲从、只知道互相模仿,而是他们不得不这样。
博弈论要求你必须考虑竞争对手会怎么做。
咱们把问题简化一下 [1]。设想有一个比较长海滩,你要在海滩上摆个摊卖冰激凌。你应该把摊放在哪里呢?
如果整个海滩只有你一家冰激凌摊,那你摆哪里都可以。但是考虑到可能将来会有竞争对手,你就应该把冰激凌摊摆在中间!这是因为如果你摆的位置比如说偏右,对手来了只要往中间区域一摆,他辐射的势力范围就绝对大于你。
严格地说,如果你的位置在 k,竞争对手在 -k 和 k 之间任选一点都比你好。
好,现在作为先来者你已经把摊位摆在了中间。那如果新来了一个竞争者,他应该把冰激凌摊摆哪儿呢?如果他的位置靠右,的确能够独占他右边的市场,但是那也就等于把从你俩中间开始算,左边超过一半的海滩都拱手让给你了。所以没办法,他也只能把摊位放在中间,只有这样才能跟你平等竞争。
这就是为什么要扎堆。可是我们想想,如果两家事先商量好,分散开,在海滩上1/4和3/4这两个位置分别摆摊,其实还是两家平等赚钱,而且还能确保消费者买冰激凌的走动距离最短。这样多好呢?
从扎堆到分散的这个改进,两个商家的利益都没有受损,而消费者的境遇更好了,所以可以称得上是“帕累托改进”。帕累托是一位意大利经济学家,帕累托改进的意思是这个改进能在不伤害任何一个人利益的同时,使得至少一个人的境遇变得更好。如果一个局面已经好到没有帕累托改进的余地了,这个局面就叫“帕累托最优”。
一个理想的、令人快意的世界应该是帕累托最优的。扎堆显然不是帕累托最优,分散才是帕累托最优。那为什么博弈的结果不是帕累托最优的呢?
因为在这场博弈中,帕累托最优是个*不稳定*的局面。就算一开始两家商量好了分散摆摊,将来也会有一家偷偷地转移到中间去!他这么做不是帕累托改进,因为会伤害对手和消费者的利益 —— 但是这么做对他自己很有利。
理想青年喜欢帕累托最优,但是博弈论告诉我们只有稳定的局面才能长久存在。
2.囚徒困境
你可能已经非常熟悉“囚徒困境”的故事了,但是因为从这个故事里能得出特别重要的概念,我们值得专门讲一遍。
有两个小偷被警察抓住了,但是警察手里并没有过硬的证据,只能指望口供。警察开出的条件是如果两个人都招供,那就都判刑3年;如果有一个人招供,另一个人不招供,那么招供的人就算立功,可以无罪释放,而不招供的人就要严惩,判刑5年;如果两个人都不招供,因为证据有限,所有两个人都判刑1年。警察不准两人通气,都是单独审讯。
咱们别管什么正义和邪恶,咱们帮这两个囚徒分析一下博弈策略。首先我们要把不同策略和结果画在下面这张矩阵图里。这种画法是美国经济学家托马斯·谢林发明的,谢林曾经开玩笑说发明矩阵图是他对博弈论所做最大的贡献 ——
矩阵边上是两个人采取的策略,中间是各种策略组合带给两人的回报。你一眼就能看出来,最好的结果是两个人都不招供,然后都被判一年。
但是博弈论要求我们每次做判断都要考虑对方 —— 不是考虑怎么对对方好,而是考虑对方会怎么做,然后你怎么做。对囚徒1来说,如果对方招供了,他就只能招供,因为不招供判5年招供判3年。可是如果对方不招供,他还是应该招供 —— 因为他招供就是立功,可以直接走人。也就是说,不管对方是招供还是不招供,囚徒1最好的策略都是招供。
这就引出了我们要说的第二个概念,叫做“压倒性策略(Dominant Strategy)”。这个策略压倒其他一切策略,不管对手怎么做,这个策略对你来说都是最好的。
反过来说,不招供,对囚徒1来说则是一个“被压倒性策略(Dominated Strategy)”,也就是不管别人怎么做,你这么做对你都是不好的。
作为理性的人,如果博弈中有压倒性策略,你就一定要选择这个策略。任何情况下都不要选择被压倒性策略。
囚徒1的压倒性策略是招供,囚徒2当然也是如此。结果就是两个人都被判刑3年。这个结果可不是帕累托最优。
但这个结果是*稳定*的。这表现在任何一方都绝对不会单方面改变策略。这就引出了我们要说的最重要概念:纳什均衡。
纳什就是电影《美丽心灵》里说的那个数学家约翰·纳什。纳什均衡的意思就是这么一种局面,在这个策略组合里,没有任何一方愿意单方面改变自己的策略。
换句话说就是不管我们喜不喜欢,这个局面我们认了。关键词是“单方面”。是,如果咱俩都不招供会更好,可是要变必须得一起变,我自己不可能*先*变。因为人人都不愿意先变,结果这个局面就变不了。
诺贝尔经济学奖得主罗杰·梅尔森有句话说,纳什均衡对经济学的意义,就如同发现DNA双螺旋结构对生物学的意义那么重大!我理解这就是因为纳什均衡给了我们一个观察世界的眼光。
前面说的扎堆摆摊就是一个纳什均衡。如果一个现象能够在社会中长期稳定地存在,它对参与的各方来说就一定是个纳什均衡。纳什均衡告诉我们评价一个局面不能只看它是不是对整体最好,它必须得让每个参与者都不愿意单方面改变才行。
理想青年喜欢帕累托最优,理性青年寻找纳什均衡。
比如你要跟人签个协议,如果你希望这个协议能被各方遵守,那它就必须得是一个纳什均衡。一个制度哪怕再好,如果不是纳什均衡就不会被遵守。一个制度哪怕再不好,如果是纳什均衡就会长久存在。
3.秦朝人的游戏
《权力的游戏》这个电视剧使我想起了霍布斯的《利维坦》。铁王座上一旦没了强力人物,维斯特洛大陆就陷入了“一切人对一切人的战争”。我们看现实中不也是这样吗?伊拉克和叙利亚有个独裁者还好,没了独裁者的高压统治各方势力立即互相残杀,老百姓进入想做奴隶而不得的时代。
《利维坦》中的“战争”和“高压统治”这两个局面,都是纳什均衡。
现在很多爱好自由的人向往中国古代的战国时期,那时候百家争鸣、人人争先。可是战国时期的人并不喜欢战国,那其实是一个互相残杀的时代。
我们想想当时的博弈局面。如果你的邻国都在励兵秣马,你应该怎么办?难道你真能像孟子说的那样用王道去感化别人么?你的“压倒性策略”是也只能备战。甚至有时候你还应该先下手为强,主动发动战争。单方面改变策略是不可行的,这是纳什均衡。
这个互相残杀局面的终结不是靠谁改变策略,而是靠秦国把策略用到极致 —— 用最高水平的暴力完成的。中国统一之后,游戏规则就变了,专制强权的策略是臣服于我的都可以安居乐业,然后谁敢反对我我就对他坚决打击。
而被统治者则面临一种多人的囚徒困境,也叫“人质困境” [2]。是,如果大家联合起来就一定能推翻统治者,可问题是谁带头呢?强权会枪打出头鸟,谁带头谁先死。没有人愿意单方面采取行动,这又是一个纳什均衡。
那我们现在回想,秦朝后来之所以失败,可能不是因为什么法律太严厉,而是因为秦朝对自己的统治力过分乐观。博弈论告诉我们专制强权的主要威胁来自内部!可是秦朝把军队主力都部署到外面,居然来不及打击内部的起义军。后世的统治者显然吸取了秦的教训,武装力量重点都是对内的……
理想青年一边赞美百家争鸣一边感叹背叛和杀戮,而你知道此局无关文明与民主,那只是一场权力的游戏。
不知道这一讲会不会让你感到有点悲观。帕累托最优常常不是纳什均衡。那既然有囚徒困境这样局面的存在,是不是就非得有个强权来解决问题呢?不一定。
就拿商家扎堆这个现象来说,以前主流媒体的内容的确是同质化严重,但是后来有了互联网,我们就能看到各种满足细分需求的自媒体。这就相当于有人愿意在海滩的边缘摆摊。这是为什么呢?因为市场的门槛变低了,小成本也可以经营,就没有必要抢主流市场 —— 游戏改变了。
如果你想更系统地学习博弈论,张维迎的《博弈与社会》是本很好的教材,他对在市场中自发协调破解博弈论困境非常乐观。
参考文献
[1] 这个例子来自 Presh Talwalkar, The Joy of Game Theory: An Introduction to Strategic Thinking (2014).
[2] 阿维纳什・K・迪克西特 / 巴里・J・奈尔伯夫,《策略思维:商界、政界及日常生活中的策略竞争》(2003)。