统计数字会撒谎
一、内在有偏的样本
1、抽样:只要样本足够大,并且具有代表性,多数情况下,样本的信息可以很好地代表总体。但如果条件不满足,抽样的结果比一个臆想的结果好不到哪儿去——除了会形成一种十分科学精确的虚假印象以外。
2、一个以抽样为基础的报告如果要有价值,就必须使用具有代表性的样本,这种样本排除了各种误差。只要有产生误差的可能性,你就有必要对结果保留一定的怀疑。
3、造成偏差的一些原因:人们不可能完全说真话;选取的样本有偏;调查人员的组成(人们在接受调查时有迎合对方说好话的明显倾向)。
二、精心挑选的平均数
1、平均数包括:均值、中位数、众数。
2、标准正态分布的情况下,三者是相等的;若分布倾斜,则三者会有差距。
3、有目的地挑选平均数,可以造成结果的不同。
三、没有披露的数据
1、在大样本的使用中,任何由于机遇产生的差异都是微不足道的。而小样本的结果则会不准确(如抛硬币)。
2、多大的样本容量才是足够的,取决于抽样时你所研究的总体,其容量有多大,以及变动范围有多大。有时样本中单位的数量看上去已经足够多,但实际并非如此(如医学试验,因发病率很低,需要样本容量足够大)。
3、显著性检验方法:显著性是一种反应测验数据以多大可能性代表实际结论,而不代表那些由于机遇产生的其他结论。如果某条信息提供了显著性程度,你将对它有更深的了解(这就是那些没有披露的数据)。通常情况下,5%的显著水平是最低要求。1%的显著水平说明以99%的概率保证该结果是真实的。
4、另一类需要关注的“没有披露的数据”:事物整体范围的全距(也称极差)和与平均数偏离水平(如不能只根据年平均气温选择野营地点,应当注意波动范围)。
四、毫无意义的工作
1、样本以多大的精度代表总体是可以用数据衡量的:可能误差和标准误差。用脚丈量100码的距离,平均而言有3码的误差,则可能误差是100±3,亦即3%;标准误差中,2/3的单位将落在加、减一个标准误差的范围内,而不是1/2的单位。
2、只有当差别有意义时才能称之为差别。忽略可能/标准误差的比较并没有意义。
五、惊人的统计图形
1、人们常用直线图来表示趋势。
2、纵轴的刻度会影响直线的斜率。在画图时,若纵轴刻度截取在某一段(如18-24),其图形增长情况可能会远远超过刻度在0-24的情况,造成增长很快的假象。
六、平面图形
1、在比较两种或以上的事物时,柱状图是一种描绘数量的常用的方法。
2、形象化的图形的前身是普通的柱状图,如用钱袋来代表收入。当要表达A的收入是B的两倍时,可以画两个钱袋分别代表两者的收入,前者高是后者的两倍。但其视觉效果是具有欺骗性的,因为前者的宽同样是后者的两倍,实际给人的印象会是四倍的差距,若考虑到三维,则是八倍。
七、相匹配的资料
1、如果你想证明某事,却发现没有能力办到,那么试着解释其他事情并假装它们是一回事。
2、不相匹配包括:两组对象的条件不同(如用实验的情况宣传实际效果);两组对象不可比(如海军与城市居民死亡率对比,一组是青年,一组包含老幼);相比较的对象不合适(去年飞机失事比1910年多)等。
3、在描述同一个数据时,可以有不同的方法。例如,你可以把相同的事情表述为:1%的销售利润了;15%的投资回报率;1000万美元的利润;利润上升40%(相比1935-1939年的平均水平);利润相比去年下降60%。选择一个目前最有利于你的说法。
八、相关关系与因果关系
1、谬误:“如果B紧跟着A出现,那么A一定导致B”,更大的可能性是两个因素并不互为因果,而同为第三个因素的产物。例如,学生中抽烟与低分经常同时出现,但不一定是抽烟导致的低分。
2、相关是通过相关系数这个精确的数据来证明两件事物具有关联关系,它可以有多种不同的类型。一种相关是由于机缘巧合产生的,由于机会的存在,你或许可以通过一组数据来证明一些根本不存在的结论,如硬币百分百是正面朝上的;联合变动是两者存在真实的关系,但却无法确定何为因、何为果,如收入与股票;还有一种相关是所有变量相互间没有任何影响,但却存在显著的相关,如抽烟与低分。
3、需要留意超过了推断相关关系的数据范围而得出的结论。例如,一般雨下的越多,谷物长得越好。但超过了一定的降雨量,则会转化为负相关。
4、相关显示了一种趋势(正相关或负相关),但这种趋势通常不是理想的一对一关系。例如,高个子男孩一般比矮个子男孩更重,但也有例外。
5、两个错误观点:用真实的相关关系来支持一个未经证实的因果关系;一旦两个事物共同变动,他们便存在因果关系。
九、如何进行统计操纵
1、统计操纵:利用统计资料传递错误的信息而误导他人。
2、常见的方法:利用地图传达与事实不符的印象(利用广袤的偏远地区的收入与政府支出相等来证明政府支出过多);利用小数点和百分数为不确切的事物蒙上精确的面纱(平均7.81比平均7.8显得更有说服力);偷换基数(将打五折表述为节省100%);将百分数直接相加(四项成本开支都上升5%,则总成本也是上升5%,并非20%);百分比之间的比较(第一年ROI为3%,第二年为6%,既可以表述为增长了3个百分点,也可以说增长高达100%)等。
3、在报纸、杂志或书籍中看到统计材料、结论以及数据时,应该经过认真的思考后再接受它们。
十、对统计资料提出的五个问题
1、谁说的?首先要寻找的是偏差。出于利己的考虑,发布消息的一方可能制造偏差。包括有意识的偏差和无意识的偏差。
a)有意识的偏差:错误的陈述或含糊不清之词;刻意挑选适合的数据而丢弃不合适的数据;改动测量标准(在进行一种比较时确定了某年为基期,而另一种比较时却使用了更有利的年份);使用不正确的测量方法(简单地使用“平均数”一词)等。
b)无意识的偏差:权威人士是否是真的权威人士;当某个权威人士被引用时,请弄清楚到底资料的内容是权威的,还是仅仅与权威人士沾边(结论却不是来自权威人士)。
2、他是如何知道的?样本是否有偏,是否足够大能保证结论值得信赖?是否具有一定的显著性?等等。
3、遗漏了什么?样本包含多少案例缺失时值得质疑;对一个没有经过可信度(可能误差、标准误差)检验的相关不用太当真;均值与中位数相差甚远时,注意那些没有表明类型的平均数;很多数据因为缺乏比较而变得没有意义(在大雾的一周里有2800人死亡);仅给出百分数而缺少原始数据也能造成欺骗(1/3的女学生嫁给了大学老师,实际上只有3位女学生被录取);有些文章遗漏了引起变化的原因(用今年4月销售额高于去年来证明经济在复苏,然而去年复活节在3月今年则在4月)。
4、是否有人偷换了概念?留心从搜集原始资料到形成结论的整个过程中,是否有人偷换了概念。用发病数替代更有意义的发病率;被调查者不一定说了真话;将相关关系偷换成因果关系;标榜自己是某个特定领域的“第一”;等等。
5、这个资料有意义吗?当所接触的资料是建立在未经证实的假设基础上时,你可以发问,这个资料有意义吗?例如用1947-1952的家庭电视机拥有数量增长速率来预测未来的拥有数,是毫无意义的。因为拥有数越接近饱和增长会放缓。
——著作权归原作者所有——