信号与噪声:大数据时代预测的科学与艺术
信号与噪声:大数据时代预测的科学与艺术
作者(Nate Silver[美]纳特•西尔弗)是我们《快公司》2013年的Most Creative People之一。唯一的遗憾是,本书似乎只披露了他小部分心得,我不相信他只靠这些就能做对那么多预测。
预测之所以重要,是因为它连接着主观世界与客观现实。科学哲学大师卡尔·波普尔早就意识到了这一点。对他来说,假设并不科学,可证伪的假设才是科学的。这就意味着在真实世界里,假设可以通过预测得到检验。
1940~1960 年这 20 年间,美国的自有住宅率从 44%猛增至 62%,主要集中在城郊地区。房地产繁荣的同时,也迎来了婴儿潮:战后,美国人口以每 10 年 20%的速度增长,这个增长率是 21 世纪初人口增速的两倍。这便意味着当时美国的房屋业主数量在 10 年内增加了 80%,这个增幅与房价的增速相吻合甚至超过了房价的增速。
我的专业背景主要包括两大学科:体育运动和牌类游戏。浸淫在这两个领域中,你会明白什么叫见惯不怪。牌类游戏玩多了,你会轻而易举地抓到“皇家同花顺”,久而久之,当你的对手抓到一手“同花”牌时,你的牌可能已经满堂红了。体育运动,尤其是棒球,其中也有很多出现概率很低的事件最终实实在在地发生了。2011 年,波士顿红袜队当时有 99.7%的机会成功打入季后赛,可还是铩羽而归。对此我很无奈,只能说,一般的概率法则对红袜队和芝加哥小熊队不起作用。
1814 年,拉普拉斯做出以下假设,后来这些假设被称作拉普斯的恶魔: 我们可以把宇宙的现状看作其过去已经发生的事情和未来可能发生的事情共同影响的结果。假设我们具备一种理解能力,能在某一个特定时刻认识到使大自然运动的所有力量,能够知晓构成大自然的所有事物的位置。若这种理解能力足够强大,可以对所有这些数据进行分析,就必然能够用一种最简单的公式或准则涵盖这个宇宙中最大的星体和最微小原子的所有运动。有了这种理解能力,就没有什么是不能确定的,未来和过去都能尽收眼底。
1888 年 1 月发生“校舍暴风雪”事件之后,公众开始更多地关注气象预报问题。那年 1 月 12 日,起初还算是大平原地区相对温暖的气温,可几个小时之后,气温骤降 30 摄氏度,紧接着,让人眼晕的暴风雪骤起。数以百计的学生刚刚放学就被暴风雪困住,冻死在回家的路上。早期的气象预报如此粗糙,但对于这种严酷的天气情况,人们还是期望气象预报至少能提供一些预警。于是,美国国家气象局被划归农业部管辖,接手一些面向大众的任务。
与虚假的天气预报相比,人们对气象预报未能预测到大雨天气的失误更为关注。当大雨不期而至时,人们就会抱怨是气象预报员破坏了他们的野炊,而天气意外放晴则会被视为额外的嘉奖。这并不是科学,但是就像气象频道的罗斯博士对我说的那样:“如果预测是客观的,对降水概率的预报没有任何偏向,那我们可能就有麻烦了。”
地震本身是一个复杂的过程。复杂性理论是由已故物理学家佩·巴克与他人共同创立的,尽管人们经常将这一理论和混沌理论混为一谈,但二者之间是有差别的。复杂理论认为,当一个简单的事物和其他事物互相作用时,就会表现得神秘怪异。
巴克最爱举沙堆的例子。如果一粒沙(有什么比一粒沙更简单呢?)落入一个沙堆中,有可能会发生 3 种情况。依据沙堆的形状和大小,这粒沙可能会停留在落下的位置;或者它会沿着沙堆的斜坡缓缓地流到沙堆底部;还可能出现另外一种情况:如果沙堆太陡,一粒沙就可能撼动整堆沙子,使沙堆崩塌。
复杂的系统似乎都有这样的特性,会有很长一段明显的停滞期,而这种停滞状态总是伴随着突发性和灾难性的失败。这些过程也许真不是随机的,而是具有不可简化的复杂性。因此,一旦这种复杂性超越了某种水平,我们就不可能对这些过程做出预测。
美国政府每年公布的数据,与经济指标直接相关的有 4.5 万个,而私人数据提供者要追踪高达 400 万个统计数据。一些经济学家忍不住想要把所有数据都混合在一起,并给一般的数据穿上优质的“外衣”。第二次世界大战之后只出现了 11 次经济衰退的情况,如果一个统计模型试图解释这 11 次衰退带来的后果,就必须从 400 万个数据中选择数据,由此得出的许多相关性都将会带有欺骗性。(这是过度拟合的又一个经典例子——将噪声误认为是信号——在本书前面的内容中,这个问题发生在地震预测者身上。)
美国橄榄球超级杯大赛的冠军队伍曾一度是经济预测中非常有名的“领先指标”。从 1967 年的第一届超级杯大赛到 1997 年的第 31 届超级杯大赛,当来自原美国国家橄榄球联盟(NFL)的队伍赢得比赛时,那么股市就会平均上涨 14%,而如果是来自原美国职业橄榄球联盟的队伍赢得比赛时,那么股市就会平均下跌 10%。
1997 年之前的 31 年里,有 28 年该指标都正确地“预测”了股市的走向。从理论上来看,统计学标准测试可以表明这种相关关系绝非偶然,是偶然的可能性只有 470 万分之一。 然而事实上,这种关系的出现只是巧合。最终,这一指标的表现还是退步了。1998 年,原美国职业橄榄球联盟的丹佛野马队赢得了美国橄榄球超级杯大赛,按照惯例,这应该是一个不好的预兆,然而,这次股市非但没有下跌,反而在网络公司的强势带动下上涨了 28%。2008 年,原美国国家橄榄球联盟的纽约巨人队奋力直追,外接手戴维·泰里大放异彩,打乱了新英格兰爱国者队夺冠大卫轮胎队的计划,然而,新英格兰爱国者队的失利并没能阻止房地产泡沫的破灭,这次房市崩溃导致股市暴跌了 35%。事实上,自 1998 年以来,每次原美国橄榄球联盟的队伍赢得超级杯大赛时,股市非但不会下跌,反而会有约 10%的上涨幅度,与传说中这一指标的预测走势截然相反。
为何一个本来失败概率只有 470 万分之一的指标会一败涂地?出于同样的原因,尽管美国的全国性彩票强力球彩票的中奖概率达到 1.95 亿分之一,但每隔几周还是会有人中奖。对于所有买彩票的人来讲,中奖概率都是相当小的,但数百万张彩票一经出售,总会有人走运中奖。同样的,在世界上数百万统计指标中,有一些恰好与股票价格、GDP、失业率有很大的相关性。如果不是超级杯的冠军,就可能是乌干达的鸡肉产量。这种关系仅仅是一个巧合而已。
由伦敦政治经济学院教授提出的“古德哈特定律”认为,政策制定者一旦锁定一个特定变量,这个变量就会逐渐失去其作为经济指标的价值。比如,如果美国政府人为地上调房价,房价会上涨,但房价就不再是衡量整体经济是否健康的指标了
某一区域若满足以下 3 个条件,就会成为 H1N1 病毒的完美孵化器: 1.人、猪毗近,也就是说,猪肉是日常饮食中的主食。 2.靠近海洋,猪和越海迁徙的鸟类可能发生接触。 3.很可能位于发展中国家,由于国家贫穷、个人卫生和公共卫生水平较低,动物病毒更易传播给人类。 上述 3 个条件正好描绘出东南亚许多国家的现状,比如中国、印度尼西亚、泰国和越南(仅中国现存猪的数量就占世界数量的 1/2)等国。这些国家通常都是流感的源头,从每年常见的流感类型到特殊的变体,而后者可能引起全球性的流行病。
19 世纪末 20 世纪初,许多城市的规划者被马粪所扰,马车的数量日益增加,使得路上的马粪越积越多。1894 年一位来自《伦敦时报》的作家致力于研究街道上的马粪问题,他预测到 20 世纪 40 年代,伦敦每条街道会被厚达 2.7 米的马粪覆盖。幸运的是,大约 10 年后,亨利·福特生产了福特 T 型汽车,避免了这场马粪危机。
与自我实现预测相反的是自我否定预测,自我否定预测是指预测会自我破坏。越来越普及的 GPS 就是一个有趣的例子。曼哈顿有两条南北走向的主干道,一条是西部高速公路,靠近哈德逊河;另一条是罗斯福路,位于曼哈顿东部。根据目的地的位置,司机也许没有必须走哪条路的强烈愿望。然而,GPS 导航系统会依据车流量预测哪条路通行的时间更短,然后用语音提示你应该选的道路。可是,当很多车主都用同一款导航仪时,问题就出现了,大家都会选同一条路,于是道路突然会被车流塞满,畅通的路反而变得拥堵。理论和现实的双重证据表明,在纽约、波士顿和伦敦都出现了类似的问题,这些导航系统的作用有时只会适得其反。
尽管贝叶斯所著图书的种类并不算多,但还是被选为英国皇家学会会员,在英国皇家学会,他担任内部评论家或者智力辩论的裁判员。尽管《神的慈爱》这篇短文是用约翰·努恩的署名发表的,但大部分学者认为这篇文章其实就是贝叶斯的作品。
文中,贝叶斯思考了古老的神学问题:如果上帝真的是慈爱的,这世上为何还会有苦难和邪恶?贝叶斯给出的答案大体上是,我们不能将人类的瑕疵误认作上帝的缺陷,我们可能并不完全理解上帝所创造的这个世界。贝叶斯在给另一个神学家的回信中写道:“所以一切看起来都那么奇怪……因为上帝只看到世界最底层的生活,他应该由此推断出整个人类会丧失幸福感。”
研究发现,已婚夫妇任何一年的出轨概率都在 4%左右,所以,我们可以将这个概率视为先验概率。
乌尔加利斯总是想尽办法搜集篮球信息,因为任何事都可能改变他的概率估值。像乌尔加利斯这样的职业竞技体育赌客,只有在认为胜算达到 54%以上时才会下注,因为这样才足以抵消“抽头”(博彩经营者从赌客的赢利中抽的份子钱)和下注风险。凭借着高超的技艺和勤奋的工作,乌尔加利斯跻身当今世界最成功的竞技体育赌客之列,但其下注的准确率仅为 57%。要想超过这一数字,比登天还难。
1989 年“深思”迎战卡斯帕罗夫时,输得一塌糊涂。卡斯帕罗夫向来尊敬计算技术在国际象棋中的作用,也一直向计算机学习以提高棋艺,但他对“深思”却少有赞誉,只是说希望有朝一日能出现一台需要他“用尽全力”才能战胜的计算机。
由许峰雄和默里·坎贝尔领衔的“深思”设计团队最终受雇于 IBM,在那里他们将“深思”的系统优化升级为“深蓝”。1996 年,“深蓝”在费城对阵卡斯帕罗夫时只赢得了首局,卡斯帕罗夫宣称剩下的几局他赢得很轻松。次年,“深蓝”和卡斯帕罗夫纽约再战,意想不到的事情发生了。史上最出色、最令人敬畏的国际象棋大师加里·卡斯帕罗夫竟然被一台计算机打败了。
利用业余时间——随着“非法互联网赌博强制法案”的颁布,我对政治产生了日益浓厚的兴趣——我最终建成了“538”网站。尽管将赢来的钱输掉了 1/3 让我感觉不舒服,但总好过把钱全部输光,而那些继续玩牌的玩家的运气就没有这么好了。2011 年,美国司法部提交了诉状——永久关闭在线扑克牌网站,这一天被在线扑克牌网站称为“黑色星期五”,其中一些网站被证明无偿还能力,无法退还玩家的赌金。
我有时会想,如果这事发生在我身上会怎么样。一个理论上的长胜玩家确实有可能连续数月或一整年都只输不赢。一个总输钱的玩家也有可能连赢几局之后,才意识到自己水平不够。扑克牌游戏就是如此捉摸不定,难以掌控。
- 您在位置 #5044-5047的标注 | 添加于 2015年2月26日星期四 下午5:00:37
2009年,也就是 2008 年金融危机摧毁了全球经济的一年之后,纽约证券交易所一开市,美国投资者每秒的股票交易额就高达 800 万美元。一个完整的交易日结束后,交易总额达到 1 850 亿美元,大约相当于尼日利亚、菲律宾和爱尔兰等国一年的经济总量。2009 年全年,美国股票的交易总额超过 46 万亿美元,这个数字是世界 500 强企业年收入总和的 5 倍。
自由市场论和贝叶斯定理是由同一个知识系统演变而来的。亚当·斯密和托马斯·贝叶斯是同龄人,都在苏格兰接受的教育,都深受哲学家戴维·休谟的影响。亚当·斯密的“无形之手”可以被视为贝叶斯定理的应用过程:价格受供求关系影响而上下波动,最终实现等价交换。而贝叶斯定理的推理过程也被视为一只“无形的手”,我们在为自己争辩时,也是在潜移默化地更新和改进观点,争论无果时,就会放手赌一把自己的观点。这两种情况都是寻求共识、博采众长。