教你炼就火眼金睛,识别会说谎的数据分析
写这篇文章主要有两点原因是:
- 一是发现有些初级分析师会犯这样的错误
- 二是市面上很多报告通过这样的方法来诱导大家做出错误的判断
(以下数据均为mock up data)
01 老板的问题
Boss问:小D啊,你帮我看看,是不是一线城市的人更会买新能源车呀?
实习生小D兴致勃勃的去数据库取了最新的2017年数据,哦,一线城市去年卖了4万多台,二线城市5万多台,三线城市3万多台新能源车,原来二线城市的人更会买新能源车,不是一线城市!
他觉得光给大Boss一些纯数字的数据,肯定不太直观,于是还画了bar chart,得意洋洋的去找老板汇报。
老板看了看,皱着眉头说,你这个结论不对,再回去看看。
02 小D找原因
刚开始,小D以为是数据取错了,又是在数据库验证,又是上网找资料验证,没错啊。小D实在没有头绪,去找了分析师小F。
小F一看,啊呀,你怎么能用绝对值呢,该用占比,市场渗透率。实习生小D仿佛明白了什么,回去又重新算了数据,画了图。
2017年全国汽车一共卖了24710000辆。
一线城市:47854 / 24710000 = 0.19%
二线城市:57859 / 24710000 = 0.23%
二线城市:38100 / 24710000 = 0.15%
小D和之前的图比较了一下,咦,怎么和之前的样子长的一摸一样的,只是数字不一样。小D拿着图去找分析师小F确认,小F看了看,说:“你再把问题描述一下”。
小D描述好问题之后,小F说:
“你看,老板问你的是哪个城市级别的人更会买新能源车,而不是哪个城市级别的新能源车销量最大,读懂问题是第一步。”
“每个城市级别的人口数是不同的,他们销售的汽车体量也是不一样的,你在考虑这个问题的时候,要把这个因素放在里面”。
“我再给你举个生活中的例子吧,中国人爱喝牛奶还是欧洲人爱喝牛奶?你一定会说欧洲人吧,因为欧洲的牛奶消耗量除以欧洲的人口大于中国的牛奶消耗量除以中国的人口。”
小D终于明白错在哪里,原来公式应该是:
每个城市级别新能源车渗透率 =
该城市级别新能源车销量/ 该城市级别汽车销量
一线城市:47854 / 3007506 = 1.59%
二线城市:57859 / 4177277 = 1.38%
二线城市:38100 / 4266031 = 0.91%
小D看了数字,果然老板的猜测是对的,一线城市的新能源车渗透率最高,有1.59%!为了进一步验证自己的结果,小D上网一查,哦,原来一线城市普通燃油车有牌照的限购,但是新能源车没有。
03 读懂问题的重要性和分析角度
讲到这里,你们明白读懂问题的重要性和正确的解题方法了吧。很多不严谨的分析结论,会让消费者和生产厂家做出错误的判断。
试想一下,如果某个主机厂看了报告,认为2线城市人更喜欢买新能源车,而忽略了一线城市的情况,那对他们来年新能源车销售布局会造成很大的影响。
04 老板的问题2
小D得意洋洋的拿着结果給老板看,老板露出满意的笑容,又问了小D一个问题:” 你再看一下,是不是一线城市的人越来越喜欢买新能源车?“
如果你是小D,你会怎么思考呢?
如果我的文章能带给你一点点启发,还请动动你的手指,点赞、收藏、关注吧!
你的点赞和关注,是我一直写下去的动力!
如果你还想看我的其他文章,请戳👉
一步一步教你分析消费者大数据
从优惠券的投放人群,教你看分类模型的评判标准
关于数据建模变量标准化,你想知道的都在这里了
运营经理,你真的知道模型里的R平方吗?
从可视化角度浅谈如何做一份优秀的咨询PPT(一)
用可视化思维解读统计自由度
孰好孰坏?第一方数据与第三方数据
读完这篇,连小学生都看的懂什么是机器学习里的boosting
运营经理,你真的知道模型里的R平方吗?