执行分析的步骤
【ZhaoWu笔记分享】
一旦完成了问题的陈述和建构,有了分析计划和工作规划,就到执行分析的时刻了。数据处理(以及其他形式的分析)在此正式启动。你的解决方案的水平,只能和分析的水平保持一致。如果分析存在缺陷,就算问题陈述再精细,问题建构再巧妙,也得不出令人满意的解决方案。
在任何领域有过实战经验的分析师都会告诉你,没有万无一失的方法可以避免一切分析错误。就算是非常优秀的分析师,也容易犯一些十 分常见的错误。以下是一些有关这些分析错误的注意事项。这些是以我们作为顾问和教授的经验为基础,研究了数千名同事和学生的分析工作,并总结了我们自身的错误之后得出的经验教训。
因为我们只关注分析工作,所以在此假设问题的陈述和建构是正确的。此时,你需要关注的是如何寻找正确的数据,在必要时做出合理的假设,准确地对数据进行分析,并从每个分析中得出正确的结论。下面,让我们按顺序对每一个步骤进行深入探讨。选择正确的数据优秀的分析始于优秀的数据。
1.拿到正确的数据。 我们怎么知道手头的数据是正确的呢?英国广播公司(BBC)蒂姆·哈福德(Tim Harford)一周一期的电视节目《或多或少》(More or Less ),每期都会对那些看似可靠的统计数据进行深入分析,挖掘出其中存在的严重误导倾向。
以其中的一期节目为例:2016年英国官方数据表明,英格兰和威尔士警方记录的他杀案件数量增长了21%,达到697起。犯罪率的急剧上升,着实令人不安。
如果你要找的是犯罪统计数据,那么警方的数据是一个很好的起点,这样的假设似乎不无道理,但放在这里则不然。这里他杀案件中的大部分(80%)的增长是由单一事件造成的,如1989年希尔斯堡足球场灾难——这场灾难共造成了96人死亡。20多年后,这些死亡人数被修改归类为非法杀害。这种情况并非人们能想到的杀人案,也不是在2016年发生的。
这类错误在业务分析中很常见。也许你正在寻找某种商品的消费数据(比如白糖),那么你认为,很容易拿到手的生产数据具备足够好的代表性吗?在此请三思。以较长的时间尺度和较大的空间尺度来看,供求可能是平衡的,但如果局限在某个地理区域和某个时间段内考虑,供求关系就不太可能一直保持同步,其中存在着太多的交易和库存变化。还有一个常见的例子,就是假设公司的股价反映了其为股东创造的价值。举例来说,在报告首席执行官的业绩时,观察分析人士通常会对首席执行官上任后股价的变化发表评论。但是,这是一种过于简单化的分析方法。对股东总回报(TSR)的分析,必须考虑到股息、股票回购和股票分割。
2.调整时间序列的正确区间。 以失业数据、新车销售量或房价为例,所有这些类型的数据都是按时间序列排列的。通常,你会想要拿到最新的数据,或者尽可能接近于当前的时间点。但是,时间序列应该在什么时候开始,什么时候结束呢?你的这个选择可能会改变你得出的结论。
以杰夫·伊梅尔特(Jeffrey Immelt)为例,他于2001年9月7日正式 执掌通用电气公司,并于2017年10月2日辞去首席执行官一职。在这两个时间点之间,通用电气的股价下跌了39%。单凭这一点来看,伊梅尔特长达16年的任期对通用电气的股东来说似乎是一场不折不扣的灾难。
然而,2001年9月11日(凶残的恐怖分子袭击美国世贸中心和五角大楼的那一天)之前的那个周五,对于在一家美国大型公司上任的“新官”来说,可真算不上是个吉日。在伊梅尔特出任首席执行官的头两个星期, 通用电气的股票价格暴跌了四分之一。而人们并不能将股价的下跌归咎于伊梅尔特的上任。如果你从那个低点看起,一直看到伊梅尔特掌管通 用电气的最后一年——2016年底的变化,那么通用电气的股价上涨了4.1%。如果你将这个数字与标准普尔500指数在同一时间段的表现进行比较,就会发现这样的表现虽然算不上有多牛,却讲述了一个截然不同的故事。仅仅几天之差,就意味着两个不同版本的故事。并非所有的情况都如此极端,但如果你不假思索地选择一个最容易获得的时间段,那注定会是一个错误的时间段。
3.获得正确的定性数据。定性数据同样危险重重。举例来说,假设你的分析工作需要与客户进行访谈,以确定他们对公司产品的满意度,你会与哪些客户交谈?通常情况下,如果只去找那些很容易找到的客户(许多实际情况就是如此),那么你的样本很可能会有偏差。举例来说,让销售人员来负责组织访谈,你很可能会见到一群销售人员的好朋友。另一种策略,就是给那些在调查问卷或投诉建议中表示愿意接受访谈的客户打电话,但这也会导致样本偏差(尽管与上述方向相反)。 这种抽样偏差在定性分析中经常出现,而且常常被忽视。
一种常见的抽样偏差值得你特别注意。假设你进行客户访谈的原因,是因为业务流失。客户对公司的产品不满意会是原因所在吗?你问 客户,他们的回答是“不”。事实上,他们喜欢这个产品,而他们希望公司在其他方面作出改进。可惜,从这个分析中得出的任何结论都具有误 导性:你的样本只包含当前的客户,这些客户并不能告诉你有关实际情况开的客户的任何信息。已经流失掉的客户可能有着不同的品味和偏好,你必须想到这一点。当我们希望通过变化发生后仍然存在的事物(留下的客户)来理解变化(客户流失)的原因时,我们就遭遇了幸存者偏差。
在大多数例子中,人们选择错误数据的原因很简单:容易获得,而相关性更高的数据则更难找到。对选择危险捷径的风险加以限制的一种方法,就是对数据进行精确标记。糖的消费数据和生产数据是不同的。但有时,就算是一个准确的标签也会产生严重的误导,正如2016年英国警方记录的他杀案件数量所体现的那样。
进行严谨分析需要遵循两个基本原则。第一个原则是要耐心阅读细则。在英国国家统计局发布的关于2016年英格兰和威尔士犯罪统计数据的报告中,你必须读到这份长达58页的报告的第25页,才能找到关于希尔斯堡足球场惨案的解释。第二个原则是提问。在过去,收集数据就相当于对那些能够接触到数据的人进行采访,而向他们提出一些与数据相关的问题则是自然而然的事情。如今,全世界的信息都触手可及,我们很容易就会跳过这一步。