怎样有效识别数据分析模型中的认知陷阱

2020-12-23 本文已影响0人海生国学智慧

避免误导：怎样识别数据中的认知陷阱？

这一篇看看怎么防止别人操纵数据来误导我们。

首先要澄清一点，虽然我们使用了“操纵数据”这个说法，但是我们不关心动机问题，到底是有意欺骗、存心误导，还是水平不够犯了错误，我们不做判断和分别。

我们就是从数据思维的角度，看看如何防止被误导，不管对方是有意的，还是无意的。

还要澄清的一点是，我们这里讨论的都是数据是真实的，只是被错误的使用，造成了误导，不包括伪造数据的情况。

举个例子：

有一家印度的承包商接受印度政府的委托，负责为难民提供食物保障，包括提供日用品和生活保证品。

但是，由于没有难民的确切人数，所以这家承包商说要多少钱，政府就得掏多少钱。可是支出看起来实在是太大了，于是就有人建议请统计学家帮忙。

统计学家瞄准了三样东西——大米、豆类食品和盐。

如果一个人群的人数是稳定的，那么这三种食品的消费量就是基本稳定的，因此它们可以交叉印证。结果发现，盐估计出来的人数最少，大米估计出的人数最多。因为盐的价格低、总量少，所以没有人在这个地方夸大。而大米价格高、总量大，所以就有动机在这个地方做假账。

这个案例就是通过伪造数据来达到非法的目的，是技术水平最低的骗子。这就不属于我们在这里讨论的内容。

利用真实的数据，通过各种操作手段误导人，才是技术含金量比较高的工作。我们在这里主要讨论这个方向。

通过操纵数据来误导受众大致有三个方向，分别是操纵数据的使用、操纵数据的产生和操纵数据的解释。

操纵数据的使用――

这方面的案例太多了，给你举几个例子：

用平均数掩盖分布：

“某公司有3003名股东，平均每人持股660股。”误导你的真相是这样的：公司总共200万股，其中3名大股东持有3/4，其余3000人总共持有1/4。

用百分比掩盖规模：

“霍普金斯大学1/3的女生嫁给了大学老师。”但其实，总共只有3名同学录取，其中1个人嫁给了老师。

用短期波动代替长期效应：

“卫生部最新公布，大雾的一周内伦敦市郊的死亡人数猛增至2800人。”这是因为大雾带来的吗？这个地方平均死亡人数如何？接下来的几周死亡人数又是如何？

遗漏变化的原因：

“最近25年，癌症死亡人数增多。”听起来吓人，但其实很多因素更有解释力。比如，以前很多病因不明的案例现在被确诊为癌症；尸体解剖成为常用方法，便于明确诊断；医学统计资料更全面；易发病年龄段人数增多。还有，现在的人数远远超过从前。

偷换概念――

“某议员提议：我们可以让囚犯离开监狱，去住酒店，这样反而更便宜。因为囚犯一天的费用是8美元，而住酒店只要7美元。”但其实，这里的8美元指囚犯所有的生活费，但是议员拿来比较的仅仅是住酒店的房租。

定义不统一：

几家平台都说自己流量第一，证据是平台播出的电视连续剧收视率第一。但是，各家的定义不一致，有的用平均收视率，有的用单集最高收视率，有的用首播重播合计收视率。

忽略测量误差――

“李蕾的智商101，韩梅梅智商99，所以李蕾比韩梅梅聪明。”但是，任何测量都有误差，结果应该加上一个区间，比如±3%。这样，李蕾和韩梅梅的智商范围有重合，不能断定谁比谁聪明。

差别过小没有现实意义：

“某次大规模的智商测试结果，男生平均106.1，女生平均105.9。”即使这个差异在统计上存在，由于差异过小也没有现实意义。

参照对象不清――

“这款榨汁机的榨汁功能增强了26%。”这是跟谁比？如果是跟老式手摇榨汁机比呢？

比较时忽略基数：

“高速公路晚上7点的事故是早上7点的4倍，所以早上出行生还几率高4倍。”其实，晚上事故多，只是因为晚上高速公路上的车和人更多。

对象不同强行比较――

“美国和西班牙交战期间，美国海军的死亡率是9‰，同时期纽约市居民的死亡率是16‰，所以海军士兵更安全。”其实，这两组对象不可比。海军主要是体格健壮的年轻人，而城市居民包括婴儿、老人、病人，这些人在哪里死亡率都高。

变换基数让人产生幻觉：

50%折扣再打20%折扣，会让你以为有70%的折扣。实际上，折扣只有60%，因为后面20%的折扣是用5折后的价格计算的。

用数字游戏控制听众感觉：

投资回报率第一年为3%，第二年为6%。下面两个说法都是对的：1.提高了3个百分点；2.增长高达100%。怎么呈现，取决于你要让听众感受到什么。

操纵数据的产生――

这方面的案例也很多，比如：

算法采用的规则有差异：

试验用两种算法来判断交通违规行为：一种是“严格遵守法律条文”，简称条文版，车速一过线就开罚单。另一种是安全原则，如果车速在当时的状况下是安全的，就不判罚。比如周围没有车，或者大家速度都很快，你慢下来就是一个移动的石头，反而对安全不利。这种规则能“准确反映法律意图”，因此简称意图版。

试验做下来，同样的交通状况，条文组的算法开出了500张罚单，而意图组的算法只开出了1张罚单。你说，交通违规的现象是严重还是不严重呢？

实验条件设置错误：

有一份得了省级奖的论文，说阿胶的营养效果好，做法是先把老鼠搞到营养不良，然后给老鼠吃阿胶，结果各种数据都优于对照组。看起来，阿胶似乎真的有效，但是一看对照组，只给那些营养不良的老鼠喝清水。这相当于给东西吃和不给东西吃的区别，而不是阿胶和普通营养方式的区别，实验结论当然不可靠。

为了防止杠精，强调一下，是说这篇论文的结论不可靠，不是讨论阿胶有没有营养。

提问的次序影响回答者的选择：

调查显示，向女性调查时，如果先提问关于服装广告的问题，再问一般性广告的问题，女性对广告的态度就更多是正面的。

向一般人调查，类似的次序问题也存在。比如，先问婚姻生活是不是幸福，再问整体生活是不是幸福，回答者会自动把自己婚姻生活的感受排除，评价整体生活。反过来则相反。

操纵数据的解释――

还是举几个例子给你感受一下：

归因错误：

一位飞行教官非常自信地说，“批评使人进步，表扬使人退步。”因为教官发现，只要他表扬了学员，第二天学员的表现肯定会变差，批评学员就会反过来，第二天的表现会更好。

实际上，这是一个回归现象。如果今天学员达到了被表扬的程度，就说明他今天的表现超过了自己的平均线，第二天向自己的平均水平回归是正常的。

因果关系不成立：

在印度，研究人员发现，看电视的人对男女平等的态度更加积极。这指示我们应该普及电视来改变印度农村地区对女性的态度吗？

真实的情况是，教育程度好的人才买得起电视，而教育程度好的人对男女平等的态度更开明。经常看电视与男女平等积极的态度之间不是因果关系，而是伴随关系。

理论适用错误：

网上有段子说，汉朝是8000人养1个公务员，唐朝是3000人，明朝是2000人，清朝是1000人，而今天是18个人，暗示这个时代的公务员太多了。

这个错误是没有条件地按比例放大或缩小。随着人口规模的上升，公共服务需要的人数不是按线性比例增加的，应该是按几何程度增加的。只有在合理的理论框架下，才能评价18个人养1个公务员是多还是少……

怎样有效识别数据分析模型中的认知陷阱

猜你喜欢

热点阅读