透过分布看世界
这一年半的时间对幂律分布的研究比较多。最近正好看到万维钢解读《模型思考者》,系统的讲解了三种特别常用的统计模型,分别是“正态分布”、“对数正态分布”和“幂率分布”。
1、三种常用分布的形态
正态分布对数正态分布 幂率分布 对数坐标下,幂律分布(黑线)和对数正态分布(灰线)对比
2、如何识别三种分布
(1)利用中心极限定理判断什么样的事件满足正态分布
中心极限定理说,如果一个事件满足下面这些条件,它的分布就是正态分布 ——
第一,它是由多个 —— 至少 20 个 —— 随机变量相加*的结果;
*第二,这众多的随机变量是互相“独立”的;
*第三,每个随机变量的方差都只有有限大;
*第四,每个随机变量对结果都要有一定的贡献,否则如果只是其中几个起到决定性的作用,那也不能算“多”。
简单地说,关键要求有两个:“相加”和“独立” —— 凡是多个独立随机变量相加的事件,结果就会是正态分布
(2)如果一个事件的结果不是由独立随机事件相加、而是由相乘决定的,它的分布将是“对数正态分布”。
它有一个比较长的尾巴。这意味着其中发生极端事件的可能性比正态分布高很多。
(3)幂率分布是不独立的随机变量作用的结果。
幂率分布的“长尾”,比对数正态分布更长 ——这意味着幂率分布中会有大量的极端事件。为什么会产生幂律分布呢?常用的解释有两个:
第一个模型是“马太效应”。畅销书就是典型的案例。比如你去书店买书,那么多本书选哪本呢?你会优先关注那些上了排行榜的“畅销书”。这是人之常情,但是这对那些没上榜的书是不公平的 —— 这等于说越畅销的书就会越容易被关注,而越容易被关注就让它进一步更畅销。这就成了一个富者愈富的局面。幂率分布使得图书市场中会出现少量特别畅销的书,而绝大多数书的销售成绩都很差。
另一种幂率分布模型来自于复杂系统的“自组织”现象。一个系统在变大、变复杂的过程中,它的各个部分互相依赖的程度将会增加。到了一个临界点,因为互相关联实在太紧密了,一部分出个小问题就会导致整个系统出大问题,那就是雪崩式的灾难。
核电站的安全性、地震、森林大火,这些事情中包含自组织,各个部分之间会有复杂的联动。而我们说过,所谓蝴蝶效应,罪过不在蝴蝶,恰恰就是因为系统中的复杂联动。这些系统可能平时什么事儿都没有,但是其中蕴含着大灾难的可能性。
可能一个地区每天都发生一万次以上的小地震,影响微不足道,但是你考虑到地震是幂率分布的事件,就必须对大地震做好防灾准备。
3、小结
如果这个事件代表多个独立随机变量之和,它就满足正态分布,不用担心会有什么极端的情况发生。
如果一个事件是独立随机变量的乘积,那就是对数正态分布,其中会有一些比较极端、但不是那么极端的事情发生。
而如果一个事件中的随机变量不是互相独立的,有互相模仿或者达成了紧密的关联,那你就必须做好应对极端情况的准备。
在城市交通的研究中,正态分布和幂律分布经常被用到。比如计算行人过马路的可穿越空档,一般假定人口的达到时间服从于正太分布。而城市内每个人的出行距离一般更接近于幂律分布,城市内每个人的财富更是典型的幂律分布。