选择与判断

读书笔记之《信号与噪声》

2016-10-24  本文已影响0人  三川井大师

引言

在发明印刷机之前,书籍已经存在,但知识的积累很困难。主要的问题是成本高、抄写错误多、受众少。出现印刷机之后,知识进入快速积累期,同时伴随着新的、更严峻的问题。印刷内容良莠不齐,观点五花八门。在长期接受外界信息的过程中,越来越多的人出于个人喜好筛选信息。从根源上分析,其实是因为人类处理信息的能力增长幅度远不如信息增长的幅度。

作者用信号和噪声进一步区分信息。一切信息处理的目的都是保留信号、去除噪声,但不可避免的主观因素导致数据处理过程无法总是遂愿。幸运的是,这些大数据终将推动人类社会进步。

人类的处理信息的核心机制是坚持以自己的看法让世界更加简单,避免信息超负荷。在充满不确定的世界,人类随时都需要预测未来并制订相应的策略,以维持正常的发展。预测之所以重要,是因为它连接了主观世界和客观现实,人类的目标就是从海量的信息中筛选出真正的信号,做出接近真相的预测。

预测失败的灾难性后果

失败的预测的共同点是预测者只关注符合预测者期望的信息,而不在乎真实性。如果仅是失败了一次,或许可以归结为运气等外部原因,但多次失败或者犯下严重的错误,则说明预测者的预测方法有问题,因为失败的预测和客观世界无关。 但存在另一种情况,预测者成功预测未来,却视而不见。原因很多,可能是侥幸心理,可能是盲目自大,认为风险在可控范围,或者不愿因小修小补而改变现状,尽管问题酒出现在细节处。 可能会出错的事情和不可能出错的事情的区别在于,一旦不可能出错的事情出了错,那么这个错误往往无法挽回。

以2008年金融危机为例。首先,房地产泡沫破裂,房价下跌,接着严重影响普通民众资产。尽管房地产市场只占金融体系中不大的部分,普通民众的消费型支出趋于保守,但金融大亨仍旧大力投资房地产,导致相当一部分公司和银行高负债经营。一般上,投资者会谨慎的避开此类公司,但3A评级机构提供担保,虽然事实证明评估漏洞百出,但结果是投资者选择冒险。雷曼兄弟成为第一个受害者,他的破产直接波及相关债务公司,最后冲击整个金融市场。 金融危机发生后,人们没能预测到长久的经济衰退的可能性,政府、企业的后续手段加剧危机。为什么预测会失败?作者认为,失败的预测都是非样本预测,错误的用之前并不贴近当前的数据解释当前情况或预测未来。

政治选举预测:狐狸和刺猬,谁更聪明?

狐狸型专家原则一,用概率的方法思考问题,结果可能会有几个。二,当实际情况与之前不同时,不应受限于过去的结论,而应该时刻更新预测,最大程度的利用有限的信息。预测出现波动要么因为设计的模型很差劲,要么因为预测对象不具备可预测性。三,寻求共识,群体预测一般比个人准确。但狐狸型专家可以通过独立思考,反复自己发问而效仿集体预测。预测时,定性定量的信息同等重要,两者不能独立分析。

棒球比赛预测:球探和数据怪才,谁更胜一筹?

一个好的棒球预测系统可以完成三个任务。一,考虑影响球员表现的外在因素。本任务相对简单,主要通过“球场因素”来解释球员面对的困难的程度。二,区别对待技术和运气因素。短期内,运气常常会主导棒球比赛,但长期内技术才是主要因素。某些数据比较善变,容易受运气影响,而某些数据稳定,则体现个人技术。主要体现三,熟知老化曲线,不同工作的巅峰年龄不同。

天气预测:蝴蝶扇动翅膀,有可能引起龙卷风

气象系统符合混沌理论,动态而且非线性。这意味着之前某个时间点发生的动作会影响未来,并且以指数形式增长。 初始数值哪怕发生微小的变化,结果也会造成巨大的差距。可惜,精确程度很有限。经分析可知,这种预测方式属于决定论,结果完全由初始值确定。在现代气象预测中,人们通过大量输入只有微小区别的初始数据,使多个结果以概率形式对比出现,结果成为或然。 人类的视觉相对计算机具有天然优势,人类可以瞬间发现数据中的异常值并且给出解释或预测。计算机缺乏想象力,无法识别图案(比如验证码)。

地震预测:一个困惑了人类1000年的难题

地震学家热衷于含时预测,地震发生的概率在一段时间内总会出现波动。余震可以证明地震存在一定的模式。一般而言,地震伴随着余震,余震的威力小于地震。但历史上曾多次出现无法判断余震的情况,因为连续出现的地震等级惊人的接近。对于地震,还有个误区是认为地震活动高发期是大地震的预警。如果预测某地每35年发生一次大地震,并不意味着地震但间隔时间相等,更保险的说法是每年发生大地震的可能性是35分之1,无论前一次地震何时发生,下一次但概率也不会改变。地震预测之所以陷入困境,很大程度因为人们无法直接测量地壳的压力,只能获得纯统计数据,而没有具有可分析性的数据。在预测中,最常见的是过度拟合,将噪声误认为信号。

经济预测:经济学家为什么没有预测到2008年经济危机

经济学家并非都是理性的,相当一部分人过度自信。除了预测者本身因素,外界因素也足够复杂,难以预测。首先,相关性并非等于因果关系。政府每年公布与经济指标相关的数据上万个,一些经济学家把大量并没有因果关系的数据混在一起。某些数据存在滞后性,经济预测和经济政策之间的反馈也难以正常进行,模型中的自变量和因变量在经济领域混乱使用。

第二个原因是经济变换莫测,某一时期的经济运行状况无法解释未来经济的发展。经济周期并不稳定,没有知道下一个转变何时出现。虽然建立在稳定运行状况的经济模型毫无价值,但预测转折点绝非易事。

第三,预测者的原始数据质量不高。 经济学家面临两个困难,一是经济是动态系统,处于永久的运动中。二是受到某些不确定的初始条件的约束,并不精确的初始数据会导致完全相反的结果。经济学家对经济运行中的因果关系认识的迷糊不清,既是给出一系列变量和方程式,也容易把噪声当成信号。这种情况在大数据时代很常见,没有理论支撑,没有深入研究根源,仅仅是纯统计学。此外,偏见不可避免。名气越小,预测越不怕冒险,相反亦成立。解决办法有两个,一是为准确的经济预测创造市场,更多的人对预测感兴趣。二是我们应该成为更好的预测用户,关注真正的专家,知道什么是噪声,什么是信息。

传染性疾病预测:禽流感为何会突然爆发,又突然消失?

外推法认为,未来是现在趋势持续发展的结果。预测者把已有数据画成图,并据此推断未来的发展模式。这种方法显然不适用于现实。 之所以禽流感会突然爆发,主要因为预测本身会改变人的行为。要么让结果无效,要么更准确。自我实现预测就是指预测自动实现,人们越担心某种情况这种情况就越容易成为讨论的话题,相关报道越接近真相。与之相反的是自我否定预测,预测会自我破坏。对于流感预测而言,最好的预测无法达到结果,因为这样的预测会促使人们做出更有利于健康的选择。 为什么我们无法预测出禽流感?   传统流感模型过于简单,而且依赖于大量假设,其中很多难以实现。对于复杂的现实,传统模型显然落后时代。但复杂的模型同样不能提高预测的准确性。现在,越来越多的人采用“基于Agent建模方法”,本质上是对研究区域的模拟,预测者需要大量的数据,以及对认知心理学等学科深入的了解。就目前而言,这种模型难以投入应用。

贝叶斯公式:只有正确的预测才能让我们更接近真相

成功的赌客,从来不会以稳赚不赔的心态、无懈可击的理论和极其准确的尺度去看待未来。 通常,我们会把焦点集中到最新最块的信息上,而忽略全局。有时候,新证据的力量十分强大,会压到其他的证据。合理的做法是不断的增加新证据,不断的更新预测结果。在大数据时代,拥有的信息指数增长,需要验证的假设以同样速度增长。预测因此更容易失败。 频率主义认为,仅从人口样本中收集数据是统计学问题中出现不确定性的原因。

上一篇下一篇

猜你喜欢

热点阅读