《如何用数据解决实际问题》柏木吉基
第一章、解决问题,你需要“流程”
解决问题的流程案例
通过假设得出所需的方法及数据在开始分析之前,将“问题”、“假设”、“分析结果”、“结论”等主要内容或流程以符合逻辑的方式确定下来,可以提高效率。
实操方法是运用“框架”作为思考问题的线索:
- 流程图
- 损益表
- 4P营销理论
- 其他
用框架来查漏补缺,用相近或同类数据来代替很难取得的真实数据。
开端(假设)决定结论的质量
案例此案例中,在设定问题时,分析者的思考还无法超出“降价”的范围。要避免这种情况,在定义问题时,应该尽量具体地思考“怎样才是最理想的状态”。
此案例中,最理想的状态是“洗发水A的年度利润保持在一定水平之上”。如果将问题定义为“成本过高”,那么思路就局限在降低成本中;但如果考虑希望达到理想状态,才能确定“增加收入”的最终目标。与只考虑成本相比,视角就会更加宽阔。
第二章、分解数据,找到“问题的关键”
上面这个案例,分析者没有把握数据特征就着手整理数据,因此被反复质疑。在很多情况下,可以通过趋势和快照两个视点来把握数据特征。
趋势视点:也被称为时间序列,可以捕捉一段时间内的变化。
快照视点:截取某个期间的情况,用指标(平均值等)体现该期间的大小、比例和分布情况等。
例如,区域A的销量大幅下降(趋势),但是通过快照发现其销量规模仅占整体的1%,毫无疑问这不是一个应该重点分析的case。
WHAT型假设
辛普森悖论
用“波动”的视角给平均值做补充
平均值适合表示整体情况,但忽略了内部要素,可能产生辛普森悖论。因此,对数据的整体把握,除了有平均值以外,还需要关注数据的波动。
标准差标准差案例:原书作者在日产工作时需要关注120个地区的销售业绩,在数十项评价指标中,有一些无法只靠绝对值评价好坏。他将平均值增减1个标准差的范围定义为“标准”范围,关注标准范围以外的数据。
偏差值标准差有时候不太好用到工作中,这里介绍两种轻松掌握数据分布的方法——直方图和变异系数
直方图制作方式
变异系数3个简单但实用的Excel直方图绘制技巧:https://www.jianshu.com/p/a8d13b6d52d8
第三章、采用交叉视角,锁定原因
表示两者关系的方法——相关系数和散点图
相关系数人均运营成本和激励ipu高度相关。
散点图锁定原因也需要假设
找到相关分析的着力点
利用矩阵排顺序
单独看图1,数据太多难以入手;看图2,不知道相关系数和平均分以谁为准;看图3,虽然料理和满意度的相关系数最高,单平均分较高,难以提升,反而是洗浴有较大的提升空间。
根据矩阵图确定洗浴为近期的提升目标。
相关分析注意事项
- 因果关系
错把相关当因果。比如,媒体曝光度和咨询件数高度相关,是否可以认为“增加媒体曝光度就能增加销售额”呢?“也许是,也许不是”。可能是咨询件数的增加引起了同行关注从而带来了媒体曝光 - 疑似相关(间接相关)
任何事物都可以计算相关性,但这个结果未必是直接相关的。比如,冰糕卖的越多,溺死的人也越多,两者之所以相关性高是因为和温度相关。顾客满意度和销售额相关?中间可能还存在打折、选品、装修等要素相关。 - 数据的范围
数据范围不同,数据分析的结果会有较大差异。如下图,计算所有数据的相关性仅0.4,如果假设“只有达到一定次数,培训效果才会显现”,单独计算20次培训后的数据,相关性接近1.
- 离群值
分析对象中是否包含离群值,会使相关系数产生很大差异。
第四章、制定对策,依据方程式
相关分析用于锁定原因,但不知道【怎么做】,因此还需要进行回归分析。
相关分析判断关联程度,回归分析判断影响大小。相关系数作为筛选标准,与0.5、0.7比较,判断两者是否相关。对于已经确定相关关系的数据,可以运用回归分析评价其影响。
一元回归注意事项:
- 2个数据之间存在直线比例关系。情况越复杂,越不适合套用y=ax+b
- 离群点和数据范围。是否剔除离群点,数据范围选多大,会呈现截然不同的结果
应用回归分析
案例1:对比成本和收益
案例2:合理分配资源
配合新品上线,A店需要引流800人。
案例3:设定合理的KPI
某设施为了增加使用人数,设定了2000人的目标。
第五章、用数据讲故事
将事情的原因及解决问题的方法写成故事讲出来。
明确目的或问题→大致把握现状→锁定问题的关键→锁定原因→设定行动措施及KPI(和所需资源)
高级技能简介
1、多元回归分析
多元回归的前提是:各变量间相互独立。去除多重共线性,才能准确计算出各变量的系数。
查看各系数的p值,当它低于5%时,该系数不产生影响的可能性很小,可作为回归分析的结果使用;若p值大于5%,则需要剔除该系数,重新进行回归分析。
2、样本与总体(假设检验)
检验总体平均值差异的步骤如下。
①提出原假设:“样本平均值与总体平均值之间不存在差异”
②确认能否通过“t 检验”否定原假设
③如果原假设被否定,说明“二者之间的差异具有显著性”;
如不能否定,则“不能认为二者之间的差异具有显著性”