统计数字会撒谎——人行面试读书

2018-01-05  本文已影响0人  cure_py

1.内在有偏的样本

样本有偏——样本会倾向于某种选择,不能代表总体
例子:在《文学文摘》的例子中,与希望代表的全体选民相比,由于偏向了比平均选民收入更高、受过更多教育、信息面更广、反应更快、举止优雅、行为保守、更多固定吸光等特点的群体,而产生了误差。

分层抽样——需要将总体按照事先已知的优势比例划分出不同的组。

总结

2.精心挑选的平均数

年收入低于5000英镑所占的比例超过了95%,在收入曲线上朝左边拖出了一条长长的尾巴。(均值与中位数相差甚远)

总结

当看到某个平均收入时,首先问问:是什么的平均?包括了哪些人?

3.没有披露的数据

“为了得出这个结论,你调查了多少名被访者?”
显著性检验方法——一种反映检验数据以多大的可能性代表实际结论、而不是代表由于机遇产生的其他结论的方法。
通常情况下,单凭一个平均数来描述事物过于简单,起不到作用,不管这个平均数是均值还是中位数。
当遗漏了上述的重要数据时,我们需要对平均数、图表或者趋势保留一些怀疑。

4.毫无意义的工作

5.令人惊奇的图形

6.一维图形的滥用

7.不完全匹配的资料

“以每小时70赢利的速度疾驶在高速公路上,当时的时间如果上早上7点,那么你生还的机会将上晚上7点的4倍”
晚上的车祸比早上多,仅仅上因为晚上有更多的车和人在高速公路上行

“在美国和西班牙交战期间,美国海军的死亡率上千分之9,而同时期纽约市居民的死亡率上千分之16,证明参军更安全”
这两组对象是不可比的。海军主要由那些体格健壮的年轻人组成,而城市居民包括了婴儿、老人、病人,他们无论在哪儿死亡率都比较高。

总结

8.相关关系的误解

所谓的“相关”往往 是通过“相关系数”这个令人心服的精确数值,来证明事物之间存在的关联关系,它可以有多种不同的类型。

一种相关是由于机缘巧合而产生的。由于偶然性收集数据证明其相关,但重新收集数据后则无法证明相关的结论。(任意两个事物或两组特性之间,在利用小样本后,都能建立显著的相关关系)

联合变动的一种普遍形式是存在着真实的关系,但却无法确定何为因何为果。有时因果可以不时地交换位置,或者实际上互为因果。

最富戏剧性但是虽然所有变量相互间没有任何影响,但是的确存在着显著的相关。(抽烟者与成绩的不好)

总结

9.如何进行统计操纵

任何建立在小样本容量上的百分数都可以能产生误导,直接给出调查对象规模(样本容量)的大小将更有价值

50%的削减量需要通过提高100%才能加以补偿

变换基础还能产生增加折扣的幻觉(50%的折扣再打20%的折扣时,并不意味着70%的折扣,实际上只有60%)

将一些看似能直接相加却不能这样操作的事情加在一起,会产生大量的欺骗和隐瞒(一年365天,减去1/3即122天作为休息时间,再减去约45天作为一日三个小时的进餐时间,余下的198天中再扣除90天度暑假,21天过圣诞节和万圣节,余下的时间连过星期六和星期天都不够)

10.如何反驳统计资料

1.谁说的?
首先要寻找偏差
(1)有意识的偏差——错误的陈述、含糊之词、挑选适合的数据;测量标准的改动(比较时,一次采用某年为比较年份,另一次却使用更有利的年份);使用不正确的测量方法(比如简单的使用‘平均数’)
(2)无意识的偏差——

2.他是如何知道的?
看样本是否有偏(可以挑选有利的样本造成有偏),样本是否足够大
相关系数:数值是否足够大,从而能解释问题?观察值是否足够多,从而保证结论的可靠性?

3.遗漏了什么?
当看到一个指数时,或许应该关心遗漏了什么。
一个经过挑选的基期将会扭曲事实(利润指数上升得快的原因是因为萧条时期利润指标几乎达到谷底,于是基期数值相对较小)
遗漏了引起变换的原因(4月零售额高于去年,以此来证明经济处于复苏阶段,遗漏的内容是去年的复活节在3月,而今年在4月)

例子——“最近25年癌症死亡人数增多”
影响癌症的死亡人数:以前许多“病因不明”的案例现在已经确诊为癌症;尸体剖解成为一种经常使用的方法,便于做出更确切的诊断;医学统计资料的报告和编织更加全面;易发病年龄段的人数增多;现在的人数已远远超过了从前

4.是否有人偷换了概念?
定义的变化(按照5年前的定义,当年中至少30万个农场是不能被成为农场)
如果数据是建立在人门口头回答的基础上,会发生许多怪事(将囚犯所有的生活费与酒店的房租进行比较)
将“相关关系”偷换成“因果关系”

4.这个资料有意义吗?

上一篇 下一篇

猜你喜欢

热点阅读