博弈论2：群鸦的盛宴

2019-02-20 本文已影响11人 b4c3eecc1b51

博弈论是关于人在社会中如何做理性决策的理论。理性决策常常不是我们喜欢的决策。宋神宗有句话叫“快意事便做不得一件”，说的就是理性决策总是不得已的。在现有的规则之下，考虑到对手的反应，你通常没有太多选择。

面对世间种种无奈，文人总爱感慨说是人心不行或者文化不行。你学了博弈论就会发现，很多事情是这样并不是因为有人喜欢这样，这不是思想品德的问题。哪怕所有人都不喜欢这个局面，所有人却都只能维护这个局面。

有时候人们感觉简直就是身处无间地狱：每个人都在受苦，谁都没办法脱离苦海。只有博弈论能解释这样的现象。陈道明在《无间道3》里有一句话，说“往往都是事情改变人，人改变不了事情。”

往往是博弈改变人。但我们学习博弈论的终极目的，就是要改变博弈。今天咱们讲博弈论的三个基本概念：“帕累托最优”、“压倒性策略”和“纳什均衡”。

1.为什么商家总扎堆？

你注意到没有，同一类商家总爱聚集在一起。偏一点的地方什么都没有，热门地段却有好多同样的店，一个十字路口竟然会有两家加油站。新闻媒体也是这样，一有什么重大事件或者热门电视剧，你打开电视所有频道都是这个内容。从消费者的角度，我们希望加油站更分散一点，让所有人都能就近使用。我们希望产品有更多的差异化。那为什么商家非得扎堆呢？

用博弈论思考，这并不是商家都盲从、只知道互相模仿，而是他们不得不这样。

博弈论要求你必须考虑竞争对手会怎么做。

咱们把问题简化一下 [1]。设想有一个比较长海滩，你要在海滩上摆个摊卖冰激凌。你应该把摊放在哪里呢？

如果整个海滩只有你一家冰激凌摊，那你摆哪里都可以。但是考虑到可能将来会有竞争对手，你就应该把冰激凌摊摆在中间！这是因为如果你摆的位置比如说偏右，对手来了只要往中间区域一摆，他辐射的势力范围就绝对大于你。

严格地说，如果你的位置在 k，竞争对手在 -k 和 k 之间任选一点都比你好。

好，现在作为先来者你已经把摊位摆在了中间。那如果新来了一个竞争者，他应该把冰激凌摊摆哪儿呢？如果他的位置靠右，的确能够独占他右边的市场，但是那也就等于把从你俩中间开始算，左边超过一半的海滩都拱手让给你了。所以没办法，他也只能把摊位放在中间，只有这样才能跟你平等竞争。

这就是为什么要扎堆。可是我们想想，如果两家事先商量好，分散开，在海滩上1/4和3/4这两个位置分别摆摊，其实还是两家平等赚钱，而且还能确保消费者买冰激凌的走动距离最短。这样多好呢？

从扎堆到分散的这个改进，两个商家的利益都没有受损，而消费者的境遇更好了，所以可以称得上是“帕累托改进”。帕累托是一位意大利经济学家，帕累托改进的意思是这个改进能在不伤害任何一个人利益的同时，使得至少一个人的境遇变得更好。如果一个局面已经好到没有帕累托改进的余地了，这个局面就叫“帕累托最优”。

一个理想的、令人快意的世界应该是帕累托最优的。扎堆显然不是帕累托最优，分散才是帕累托最优。那为什么博弈的结果不是帕累托最优的呢？

因为在这场博弈中，帕累托最优是个*不稳定*的局面。就算一开始两家商量好了分散摆摊，将来也会有一家偷偷地转移到中间去！他这么做不是帕累托改进，因为会伤害对手和消费者的利益 —— 但是这么做对他自己很有利。

理想青年喜欢帕累托最优，但是博弈论告诉我们只有稳定的局面才能长久存在。

2.囚徒困境

你可能已经非常熟悉“囚徒困境”的故事了，但是因为从这个故事里能得出特别重要的概念，我们值得专门讲一遍。

有两个小偷被警察抓住了，但是警察手里并没有过硬的证据，只能指望口供。警察开出的条件是如果两个人都招供，那就都判刑3年；如果有一个人招供，另一个人不招供，那么招供的人就算立功，可以无罪释放，而不招供的人就要严惩，判刑5年；如果两个人都不招供，因为证据有限，所有两个人都判刑1年。警察不准两人通气，都是单独审讯。

咱们别管什么正义和邪恶，咱们帮这两个囚徒分析一下博弈策略。首先我们要把不同策略和结果画在下面这张矩阵图里。这种画法是美国经济学家托马斯·谢林发明的，谢林曾经开玩笑说发明矩阵图是他对博弈论所做最大的贡献 ——

矩阵边上是两个人采取的策略，中间是各种策略组合带给两人的回报。你一眼就能看出来，最好的结果是两个人都不招供，然后都被判一年。

但是博弈论要求我们每次做判断都要考虑对方 —— 不是考虑怎么对对方好，而是考虑对方会怎么做，然后你怎么做。对囚徒1来说，如果对方招供了，他就只能招供，因为不招供判5年招供判3年。可是如果对方不招供，他还是应该招供 —— 因为他招供就是立功，可以直接走人。也就是说，不管对方是招供还是不招供，囚徒1最好的策略都是招供。

这就引出了我们要说的第二个概念，叫做“压倒性策略（Dominant Strategy）”。这个策略压倒其他一切策略，不管对手怎么做，这个策略对你来说都是最好的。

反过来说，不招供，对囚徒1来说则是一个“被压倒性策略（Dominated Strategy）”，也就是不管别人怎么做，你这么做对你都是不好的。

作为理性的人，如果博弈中有压倒性策略，你就一定要选择这个策略。任何情况下都不要选择被压倒性策略。

囚徒1的压倒性策略是招供，囚徒2当然也是如此。结果就是两个人都被判刑3年。这个结果可不是帕累托最优。

但这个结果是*稳定*的。这表现在任何一方都绝对不会单方面改变策略。这就引出了我们要说的最重要概念：纳什均衡。

纳什就是电影《美丽心灵》里说的那个数学家约翰·纳什。纳什均衡的意思就是这么一种局面，在这个策略组合里，没有任何一方愿意单方面改变自己的策略。

换句话说就是不管我们喜不喜欢，这个局面我们认了。关键词是“单方面”。是，如果咱俩都不招供会更好，可是要变必须得一起变，我自己不可能*先*变。因为人人都不愿意先变，结果这个局面就变不了。

诺贝尔经济学奖得主罗杰·梅尔森有句话说，纳什均衡对经济学的意义，就如同发现DNA双螺旋结构对生物学的意义那么重大！我理解这就是因为纳什均衡给了我们一个观察世界的眼光。

前面说的扎堆摆摊就是一个纳什均衡。如果一个现象能够在社会中长期稳定地存在，它对参与的各方来说就一定是个纳什均衡。纳什均衡告诉我们评价一个局面不能只看它是不是对整体最好，它必须得让每个参与者都不愿意单方面改变才行。

理想青年喜欢帕累托最优，理性青年寻找纳什均衡。

比如你要跟人签个协议，如果你希望这个协议能被各方遵守，那它就必须得是一个纳什均衡。一个制度哪怕再好，如果不是纳什均衡就不会被遵守。一个制度哪怕再不好，如果是纳什均衡就会长久存在。

3.秦朝人的游戏

《权力的游戏》这个电视剧使我想起了霍布斯的《利维坦》。铁王座上一旦没了强力人物，维斯特洛大陆就陷入了“一切人对一切人的战争”。我们看现实中不也是这样吗？伊拉克和叙利亚有个独裁者还好，没了独裁者的高压统治各方势力立即互相残杀，老百姓进入想做奴隶而不得的时代。

《利维坦》中的“战争”和“高压统治”这两个局面，都是纳什均衡。

现在很多爱好自由的人向往中国古代的战国时期，那时候百家争鸣、人人争先。可是战国时期的人并不喜欢战国，那其实是一个互相残杀的时代。

我们想想当时的博弈局面。如果你的邻国都在励兵秣马，你应该怎么办？难道你真能像孟子说的那样用王道去感化别人么？你的“压倒性策略”是也只能备战。甚至有时候你还应该先下手为强，主动发动战争。单方面改变策略是不可行的，这是纳什均衡。

这个互相残杀局面的终结不是靠谁改变策略，而是靠秦国把策略用到极致 —— 用最高水平的暴力完成的。中国统一之后，游戏规则就变了，专制强权的策略是臣服于我的都可以安居乐业，然后谁敢反对我我就对他坚决打击。

而被统治者则面临一种多人的囚徒困境，也叫“人质困境” [2]。是，如果大家联合起来就一定能推翻统治者，可问题是谁带头呢？强权会枪打出头鸟，谁带头谁先死。没有人愿意单方面采取行动，这又是一个纳什均衡。

那我们现在回想，秦朝后来之所以失败，可能不是因为什么法律太严厉，而是因为秦朝对自己的统治力过分乐观。博弈论告诉我们专制强权的主要威胁来自内部！可是秦朝把军队主力都部署到外面，居然来不及打击内部的起义军。后世的统治者显然吸取了秦的教训，武装力量重点都是对内的……

理想青年一边赞美百家争鸣一边感叹背叛和杀戮，而你知道此局无关文明与民主，那只是一场权力的游戏。

不知道这一讲会不会让你感到有点悲观。帕累托最优常常不是纳什均衡。那既然有囚徒困境这样局面的存在，是不是就非得有个强权来解决问题呢？不一定。

就拿商家扎堆这个现象来说，以前主流媒体的内容的确是同质化严重，但是后来有了互联网，我们就能看到各种满足细分需求的自媒体。这就相当于有人愿意在海滩的边缘摆摊。这是为什么呢？因为市场的门槛变低了，小成本也可以经营，就没有必要抢主流市场 —— 游戏改变了。

如果你想更系统地学习博弈论，张维迎的《博弈与社会》是本很好的教材，他对在市场中自发协调破解博弈论困境非常乐观。

参考文献

[1] 这个例子来自 Presh Talwalkar, The Joy of Game Theory: An Introduction to Strategic Thinking (2014).

[2] 阿维纳什・K・迪克西特 / 巴里・J・奈尔伯夫，《策略思维：商界、政界及日常生活中的策略竞争》(2003)。

博弈论2：群鸦的盛宴

猜你喜欢

热点阅读