读万卷书

系统崩溃来得猝不及防怎么办?《崩溃》教你两个方法避免系统崩溃

2019-08-24  本文已影响1人  楠孩子

2013年8月16日光大证券乌龙指事件震惊全国。因订单生成系统存在缺陷,光大证券在2秒钟内向交易所发送了26082笔重复生成的市价委托订单,其中下单230亿,成交72亿,涉及150多只股票。这直接导致上证指数瞬间飙升逾100点,沪深300成分股中71只股票瞬间触及涨停。该事件造成光大证券损失约为1.94亿元人民币。

这场灾难性事件出自系统的订单“重下”功能。当天11点2分时,第三次180ETF套利下单后,交易员发现有24个个股申报不成功,就想使用“重下”这个新功能。于是在程序员的指导下操作了一番。万万没想到这个功能没有经过实盘验证,程序把买入24个成分股,写成了买入24组180ETF成分股,结果生成巨量订单。

尽管看上去是个小错误交织,却形成了多米诺骨牌效应,引发了光大证券上亿元的损失及上证指数的动荡。系统会随着社会的发展越来越强大,但系统本身也变得更复杂,容易造成“牵一发而动全身”的影响。

经历过雷曼兄弟倒闭和全球股市动荡的克里斯·克利尔菲尔德对如何避免灾难性错误这一问题抱有极大的兴趣,而安德拉什·蒂尔克斯专门从事以组织机构复杂化所引发的困境为主题的学术研究。他们一拍即合,通过研究航空、金融、核电、舆论等行业的灾难性事件,寻找事件背后的原因,并研究出了一系列减少崩溃的方法。《崩溃》凝聚了两人多年的研究成果,阐述了崩溃发生的原因,并就减少崩溃提出了建设性的对策。

《崩溃》知识卡片

01 为什么系统会崩溃?

社会学家查尔斯·培洛认为,系统的复杂性和紧密耦合是容易导致崩溃的两大因素。

所谓复杂性,是指系统中不同部分以隐蔽的方式相互作用时,我们难以了解这个复杂的系统,导致无法准确地预测小错误可能引发的后果。

紧密耦合则是工程学中的术语,具体是指系统的各个部分间少有松动或者缓冲的状态。在这中形态的系统中,容易发生一个部分出现错误时会波及其他部分。

复杂性-耦合矩阵

根据培洛的理论,复杂程度与紧密耦合同时出现的系统十分容易出现崩溃。比如,上图中大坝和核电站都属于各个部分之间很少有松动或者缓冲的紧密耦合型系统,但是核电站的复杂程度比大坝高得多,因此会产生更多无法预见的相互作用。

培洛在研究中还发现,造成崩溃的直接原因并不是复杂程度或者紧密耦合,而是一些原本可以避免的错误,比如错误决策、忽视警示信号、沟通不畅、训练不足和鲁莽地承受风险等。

也就是说,复杂性和紧密耦合创造了一个危险区,处于这个危险区的系统中发生任何微小的错误都可能发生系统的崩溃。

因此,避免系统崩溃的核心是降低复杂性。对此,《崩溃》一书分别从系统和人这两个要素入手,提出了建立更好的系统和改善决策这两个方法。

02 建立更好的系统,降低系统自身的复杂性

第89届奥斯卡金像奖颁奖仪式上,普华永道会计师事务所的两位合伙人为了保险起见,准备了两套颁奖用的信封。在最佳影片颁布前,他们误把最佳女演员奖的备用信封递给了颁奖嘉宾比蒂,于是上演了最佳影片从《月光男孩》变成了《爱乐之城》的大乌龙。

备用计划原本是一种安全措施,却因为其本身的繁琐增加了系统的复杂程度,适得其反地引发了失误。因此,为了降低系统的复杂性,我们必须建立更好的系统。对此,书中提出了三点原则:

使系统更透明

复杂的系统就相当于一个“黑箱”,发生问题时没有人知道哪里发生了问题。破解之道就是要打开“黑箱”,让系统变得透明。

中国广核集团新闻发言人胡光耀在一次新闻发布会上回答记者关于核电企业如何提升公众信任度时表示,安全最重要的法宝之一就是透明,只有做到透明才能保障核电的安全。

中广核针提高透明度的其中一个做法就是,核电站运行过程中发生的所有事件必须在两个工作日内及时通过外部网站或者召开新闻例会进行公开。

这样的制度设计,不仅揭开了核电企业运行的神秘面纱,消除了公众对核电的恐惧感,更重要的是让运行中的大小问题能够及时暴露。

扫除后勤问题

兵马未动,粮草先行。良好的后勤保障对系统运行畅通的重要作用是毋庸置疑的。比如,我们可以将攀登珠穆朗玛峰的过程视为一个系统,在这个过程中会产生许多风险,如雪崩、气候变化、高原病,甚至航班延误、登山物资不充裕等。这些看起来都是小事情,却最终造成了许多探险者未能成功登上珠穆朗玛峰。

简化警示层次

第89届奥斯卡颁奖典礼上发生的乌龙事件恰好是违反这一原则的典型案例。另一方面,中国经典寓言故事《狼来了》恰好也说明了简化警示层次的重要性。当警报频发的时候,人们难以分辨警报的紧急程度,反而会对真正需要引起重视的警报变得麻木、不知所措。因此,应当去掉系统中不必要的警示,仅留下必要的警示并按优先次序排好。

03 改善决策减少失误,降低人对系统造成的复杂性

人身在系统之中,也可以视作系统的一部分,所以人的决策错误也会使系统发生崩溃。常见的决策错误主要源于依靠直觉进行决策、忽视系统发出的警示信号、根据单一视角进行决策这三点。要避免这三点错误,必须调整人在系统中的决策方式,利用工具做出最优选择、及时吸取教训、获取多元视角。

1.运用三大工具,做出最优选择

主观概率区间估计(Subjective Probability Interval Estimates)

这个工具可以用来预测可能的区间范围。举个例子,在估算项目预计花费的时间时使用这个工具的步骤是,先找出所有可能的区间,接着逐个讨论每个区间有多大可能性,最后去掉最底端和最顶端5%的概率区间,得到可靠的置信区间(即,处于可能的最佳和最坏的情况之间的区间)。

主观概率区间估计样例

根据上图列出的可能性,该项目耗时的最终置信区间就是1-4个月。

维基序列测量(Pairwise Wiki Survey)

它的核心是明确标准,这能够消除影响正确决策的干扰因素。在招聘时,先罗列出胜任岗位需要的标准(应当具备什么能力),根据标准的主次进行排序,使用维基序列测量工具确定标准的权重,分别对候选人进行评分,最后得出加权的总分。

维基序列测试样例

样例中,候选人需要同时具有四种能力,根据评分的加权结果则可以得出两位候选人的总分,做出最优决策。

事前检验(Premortem)

沃伦·巴菲特说,后视镜永远比前车窗更清楚。

事前检验的具体做法是,思考可能导致的坏结果以及发生的原因。这样以来可以使潜在的问题在做决定前就浮出水面,从而帮助我们优化决策。

尽管这三个工具都不能完全消除决策错误,但是它们可以最大程度上帮助我们拷问直觉,打破思维惯性,做出更正确的选择。

2.通过异常现象化,吸取教训

这一点之所以重要,是因为问题往往不是瞬间发生的,而我们却容易忽视系统发出的警示信号,因此我们要从系统显示的信息中学习。这个从小过失和未遂事件中获得经验教训的过程被称为“异常现象化(Anomalizing)”,共包括五个步骤:搜集数据、改正问题、找出成因、分享失误、检验成效。

异常现象化过程

实践这个过程的前提是,必须认识到:系统中发生错误是很正常的,而我们要做的、能做的是尽力避免错误。这个前提可以避免造成错误的当事人为了免于处罚而对错误缄口不言,最终导致小错误变成大问题。

3.改变工作方式,获取多元视角

改变工作方式的终极目标是为了减少决策时考虑问题不全面。解决问题的关键在于获得多元视角,挖掘不同的观点、意见,收集足够多用于正确决策的信息。具体来说,可以从以下几点做出改变:

- 鼓励积极表达异见,挖掘更多观点

- 建立多元化的团队,避免不假思索地做决定

- 运用圈外人原则,找出圈内人会漏掉的问题

- 了解工作的整体,而不仅拘泥于自己所在的工作环节

读完克里斯和安德拉什的这本《崩溃》,获得最大的启示是:系统崩溃本身并不可怕,通过建立更好的系统和改善决策,就能够降低系统崩溃的风险。

上一篇 下一篇

猜你喜欢

热点阅读