数据分析中会常犯哪些错误,如何解决?

2020-10-25  本文已影响0人  可乐的数据分析之路

这篇文章从数据分析的几个阶段,总结了14个我们可能会犯的一些错误,以及如何避免。

数据获取阶段

在数据采集/获取阶段,容易犯的错误:

NO.1 采样偏差

在数据采集的时候,如果不能获取到总体的数据,那就要采集到可以代表总体的样本,抽样就显得尤其重要,如果样本不具有代表性,那么得出的结论一定是有失偏颇的。

举个例子 ->
小红书的用户群体是年轻的女性用户为主,如果用这份数据去预测一部受众是青少年的电影票房,结果可能就不合理了。

避免的方法 ->
使样本能够充分代表总体。

NO.2 幸存者偏差

指的是只能看到经过某种筛选而产生的结果,忽略了被筛选掉的关键信息。

在二战期间,人们发现幸存的轰炸机中,机翼中弹的数量很多,而机身中弹的却很少。因此人们认为我们应该加固飞机的机翼,其实不然,就是因为机翼中弹多还能飞回来,所以机翼中弹并没有影响飞机返航;而机身中弹的少则说明了子弹打中机身对飞机的影响更大,导致飞机不能返航,在这个飞机问题中,只统计到了幸存下来的飞机,以此下结论,是不正确的。


举个例子 ->
在某产品开放日,邀请使用该产品的用户到现场给产品打分,结果用户满意度都很高,其实就是一个幸存者偏差的例子,愿意来现场打分的客户,基本上都是忠实客户了,得分自然就高。

避免的方法 ->
还是样本不具备代表性的问题,避免主观臆断,用科学的方法选择样本。

数据处理阶段

NO.3 不注意数据的清洗

行百里者半九十,都说做数据分析有80%的时间都是在处理数据,其实就在告诉我们数据处理是多么的重要,干净的数据源是一切工作的前提,不然一切都要从头开始。

NO.4 在原始数据上直接处理

尽量不要直接在原始数据上开始修改处理,最好拷贝一份,保留好原始数据。这样做的目的是避免后续处理时出现错误,无法返回到原始数据的情况。

举个例子 ->
在做异常值处理时,直接把异常值删除了,后面发现其实不是异常值,而是一个值得注意的小概率事件,这就麻烦了,还不如一开始就在原始数据的备份上进行操作。

避免的方法 ->
在拷贝的原始数据上处理

数据分析阶段

NO.5 只会工具,不会分析

各种数据分析工具Excel、SQL、Python、Power BI、Tableau运用的炉火纯青,但却没有一个分析的逻辑思维方法,没有深入地去分析现象背后的原因。通常要搞清楚分析的目的是什么,工具都是辅助。

避免的方法 ->
多学习和总结一些思维和方法,并能够成功地运用,掌握其要领。

NO.6 过于追求高级方法/工具

在分析时,崇尚所谓高级的、时尚的方法,而不从项目自身实际出发,找到适合项目的分析方法。同样,过分追求“高端”工具的使用,比如在数据量很少的情况下,非要用数据库/Python,但其实Excel就可以简单便宜地满足分析的需求。

避免的方法 ->
合适的才是最好的。

可视化阶段

NO.7 不做图表

用文字来表达结果,肯定不如直接上图更显而易见。

避免的方法 ->
能用图表展示的结论就少用文字来描述

NO.8 误导性的图表

比不做图表更可怕的是做出具有误导性的图表。常见的比如把Y轴的刻度不从0开始计,这样得到的图形走势就显得差距非常大,给人造成一定程度上的视觉冲击,但实际上,差距并没有那么大。

举个例子 ->
下图中净利润的增长可以看到Q4增长幅度非常明显,但仔细一看可以发现,纵坐标是从13%开始的,如果把纵坐标调成0%开始,就会发现这个增长幅度其实并不明显。

纵坐标从13%开始
纵坐标从0开始

避免的方法 ->
保持客观的态度做图表,不要被心里预设的结论所左右,该是什么就是什么。

得出结论阶段

NO.9 主观臆断

完全抛弃数据,而是以自我经验或想法来给出结论。这样做数据分析就没有意义了,要保持客观的态度,不要总是“我觉得”,“我认为”,要以数据为依据。

避免的方法 ->
以数据为导向,保持一个数据人应用的科学客观的态度。

NO.10 数据偏见

在得出结论时,仅选择支持你声明的数据,丢弃不支持声明的部分。这就失去了客观性,是建立在数据上的主观臆断,一定要让数据反映出客观事实。

举个例子 ->
发现了啤酒和尿布的销量一样好,如果我只选择性地关注啤酒的销量,而忽视尿布,那就不会有购物篮分析了。

避免的方法 ->
客观,客观,还是客观的态度。

NO.11 相关性==因果性

我们经常说相关性不等于因果性,两个变量之间存在相关关系,并不意味着一个变量会影响另一个变量,也不意味着二者存在实际关系。

如果一个指标和另一个指标是一起变化的,说明它们是相关的,而如果是一个指标先变化从而导致了另一个指标的变化,才说明它们是有因果性的。

在数据分析时很容易将相关性判断为因果性,这是不对的。相关性已经很好了,但因果性更佳,很多时候,我们只能发现相关性,但应永不停止寻找因果性。因为发现相关性可以帮助我们预测未来,而发现因果性意外着可以改变未来。


NO.12 唯数据论

由数据分析得到的结果不具备可行性,完全不考虑常识和业务需求,数据脱离了业务,也是常犯的错误。

避免的方法 ->
多了解业务,多沟通,不要一味搞技术。

其他

NO.13 先预设一个结果,再倒推原因

依据经验常识先预设了一个结果,再从结果出发,为结果找原因,这
也是一种主观臆断,颠倒了数据分析的逻辑,我们应当是先分析,再结果,现在变成了先结果,再为结果找一个说辞。

避免的方法 ->
可以有假设,但假设不能等同于结论,大胆假设,小心求证。

NO.14 忽视黑天鹅事件

在发现澳大利亚的黑天鹅之前,17世纪之前的欧洲人认为天鹅都是白色的。但随着第一只黑天鹅的出现,这个不可动摇的观念崩溃了。

黑天鹅的存在寓意着不可预测的重大稀有事件,它在意料之外,却又改变着一切。人类总是过度相信经验,而不知道一只黑天鹅的出现就足以颠覆一切。


2008年美国次贷危机爆发就是一个典型的黑天鹅事件,大家用通用的风险价值模型预测投资风险,结论是美国商业银行放贷业务崩溃发生的概率只有不到1%,结果我们都知道了,这种不到1%的小概率事件居然发生了。

避免的方法 ->
所以不要忽视小概率事件,它有可能会造成严重的后果。


欢迎关注:【可乐的数据分析之路】
或加我微信:data_cola

上一篇下一篇

猜你喜欢

热点阅读