大数据时代,更需要对数据的假设验证
一、朋友圈广告的假设
前几天在朋友圈看到这样一篇文章,《从班级倒数第一到逆袭上清华,成为世界脑王,他就赢在了这一点》,我还蛮有兴趣看下去,毕竟去上清华是一生的梦,现在梦醒了,可以为孩子织梦了。
朋友圈公众号图片逆袭清华的学霸本硕连读,因为在《最强大脑》夺冠让人得知他的经历,学霸小学初中数学很差,一度班级倒数,受一位数学老师影响后逆袭,而这位数学老师经历也非常传奇,曾经是奥数冠军,最后去做数学老师,最后欢迎大家来报这位老师的课。
当看到这样的文章时,大部分读者包括我都会顺着作者读下去。
我想,上清华只需要数学好就可以了吗?我顺手在微信公众号继续搜索【倒数+清华】,发现这篇文章《从班级倒数第七到清华学霸:用思维导图玩转各个学科》。
类似的学习宣传法层出不穷,当第一次读到到一篇类似文章时,会感觉哇塞,我拥有了全世界最好的方法,但是接二连三的文章出现时,已经不知道如何为小孩去规划了,反而徒增烦恼。
让我想起赵周老师在RIA讲师班中提出分析和整理信息、追问和反思经验的【前因后果、适用边界】的问题中,当你发现这样的问题时,可以适当用假设方法去验证事情是否是它说的那样。
在前因后果的因中,需要提两个问题:作者关于这样问题都有哪些关于原因的假设呢?如何怎么验证或排除这些假设呢?
前因后果通过对问题的验证或排除,把隐含的假设给剔除,有种拨开乌云的感觉。
很显然,最关键的假设有两点:这位学霸的逆袭完全是因为这位老师,如何去验证或排除假设呢?
首先可以问一个问题,这位受数学老师影响的学霸,同一个班级的同学的上学情况如何,需要验证;在文中没有给出其他同学也考上了清华,或者上清华的比率;
很显然,这位老师是帮助了这位学霸,至于是不是完全是因为这位老师,不得而知。但是在文案里面,看到都是这个假设。是否还有其他的假设,需要再去不断的挖掘。
二、数据用假设的意义
假设对于很多以数据为王的公司,也同样重要。互联网越来越发达的今天,很多企业都在讲究流量为王。而流量真正解决的是用户背后的信息,这些基于流量背后的是庞大的数据。
当拿出一系列的数据时,如何把数据为企业所用,对数据的分析能力越来越重要。
在流量转化的阶段,流程越来越多,是哪个环节导致流量的飞速上升,直升机式的下降,有时候很难分清。
如果一开始就对某个流程化的步骤有错误的假设,应对的方式也是错误的,最终投入的大量人力物力和财力都会化为乌有。
因此,是哪个环节的问题,最关键的问题是什么,需要多一步假设验证与排除。
当提出假设和验证的时候,我想起很多关于假设的内容。
因此,当面对繁杂的问题和数据时,使用WAHT假设和WHY假设,再去找到数据或者创造数据去假设,就可以用数据解决实际问题了。
而《如何利用数据解决实际问题》,在正本书中都是基于假设和验证,用数据方式去解决问题。
《如何利用数据解决实际问题》而数据使用的前提是要找到关键问题,而关键的问题的挖掘,又需要使用假设去验证。
全书的整体框架是:分析数据的流程化思维模式、分解数据、锁定问题的原因、制定对策、展示与汇报,整本书的逻辑清晰明了。
本书作者是柏木吉基,是日本数据分析实战专家及资深培训师,曾在日产公司工作十余载。
柏木吉基主张用最基本方法分析数据,通过具有内在逻辑的故事展现解决问题的过程。因此在全书中可以看到很多企业中的实际案例,运用真实的案例,运用数据分析来解决问题。
三、如何用假设去找数据相关性
在数据分析中,解决问题通常有两种方式:
一种是有数据,这时候数据分析师需要通过对流程的梳理,找到相关的一些原因,通过假设的方式,找到核心的数据,进行相关性分析。
另外一种,数据不多,或所数据相关性很弱,首先需要假设几个问题,然后设计方式去收集数据,了解相关性,在互联网运营中,也有相关的内容。
这两种的方式可以相互补充,也可以相互结合。但是对于数据的整个分析的流程是什么样子的呢?
P17分析流程假设确定目的或问题后,才能决定假设、方法、所需数据等具体内容。进行数据分析,“假设”可以发挥重要作用。如下图所示,在解决问题的过程中,有两个环节需要假设。
在流程假设中,最难的部分就是对于问题的界定,锁定问题的关键和锁定原因,而如何使用这个模型去解决实际问题呢?
紧接着作者在后面描述了如何使用这个模型解决一次实际问题。
图1-3 通过假设得出所需的方法及数据假设我们使用WHY型假设,来探讨店铺A的现烤面包销售额在最近3个月急剧下降的原因。为了整理思路,可以制作一个如图1-3所示的图表。按照逻辑关系,将目的或问题、假设、方法以及所需数据从上至下依次连接起来。
在以上两个模型的假设和分析之后,可以大概得出,当面临数据的假设时,可以用五步的方法去坐一次分析。
第一步、确定目的,找到问题,数据分析是解决实际的问题,因此需要达成什么样的目的,首先要界定的,只有目的确定后,才可以找到与之相关的问题;
第二步、找到核心问题,做WHY假设,假设里面,会存在很多的相关因素,是不是所有的都需要验证假设呢?不全是,很多标准化的流程中,一些相关因素影响性非常小,找到相关的因素,做WHY假设。
第三步、挖掘数据,当已经知道有哪些因素影响最终结果了,需要找到相应的数据;
第四步、分析数据找到相关性,最后的一步,也是找到关键问题的最核心的一步;
第五步、根据原因找到应对措施。
在案例分析中,最关键的是第二步和第三步,只有找到相关的假设验证之后,才有希望找到关键问题,也是一个数据分析官思维模型的形成的必经之路。
而作为一名资深的数据分析官来说,对于假设验证已经形成固定的模式。
四、案例分析
如果你是一家便利店数据分析官,当面临这样情况时,如何去挖掘数据解决问题呢?
店面一,在徐家汇地铁站,有3条地铁相通;
店面二,在常熟路地铁站,有2条地铁相通;
1-7月份,店面一的总销售额是店面二的总销售额的2倍,但是8月份变成了4倍。
在拆书现场有一位数据分析的培训师,案例分析给出一个非常完整模型。
拆书现场学习者案例分析用数据分析的五步来分析,做一一的对应关系分析:
第一步:为什么8月份的销售额出现了异常,是什么原因导致的呢?
第二步:使用WHY假设找出核心问题,所有的假设可以归纳成人、货、场三个因素,因为便利店的培训和管理是统一操作,对于人和货的两个因素基本可以判断影响很小,那么最后的只剩下场的问题。
在场中,可以看出主要有两个因素,一个是地铁站的位置,二是周边的星巴克的数量,第三是地铁出站口数量,这些都是人流量的一个统计;
而对于真正影响销售额的是,进店人数与购买的金额,因此可以从这几个维度去分析;
第三步:挖掘相关数据,在第二步的地铁的因素已经在图中标识出,其他在店内的数据可以通过店面的收集的数据来核算,例如在便利店的门口都有一个计数器,在打印小票上有流水号,这都是可以去分析的数据。
第四步和第五步因为是模拟的一个案例,没有真实的数据,暂时不做研讨。
在做假设时,是否还有其他因素影响呢?很显然会有,但是在多次的假设和验证后,发现这些因素对于单一因素影响很小,所以慢慢的就舍弃了。
在便利店的完整模型中,可以看出,对于假设的部分已经有很固定的因素,这也是一个成熟的企业所固定的模型。当把固定模型的都分析完后,还没有找到问题点,这时候需要重新回到假设,看是否有遗漏的假设。
例如在便利店的案例中,是否可以假设,店面二的出口有好几条路因为修路都封路了,店面一的商场有暑期打折等等,固定的假设可以减少工作量,但是会错过很多的因素。
面对庞大的数据时,设定假设,找到问题的解决方案。
如果你是一个招聘官,在校招时,发现校招的简历投递量很少,那么你如何用假设的方式去验证呢?欢迎留言。