简单理解什么是统计思维
英国科幻小说作家H·G·威尔斯的预言:“统计思维总有一天会像读写一样,成为一个有效率公民的必备能力。”
中国当代著名经济学家、教育家马寅初曾说:“学者不能离开统计而究学,实业家不能离开统计而执业,政治家不能离开统计而施政。”
统计,是了解真实存在的一种办法。大到一个国家,小到一个企业甚至个人,都会用到。谁能获得准确的统计信息,就能把握真实的现在,为后续决策提供依据。但是学号统计学并不容易,各种数字、公式、函数、曲线对于大多数人来说都太难了,学了一点统计也不知道能对自己有什么助益。
日本人西内启一直想写出一本通俗简单的统计学书籍,帮助普通人了解统计学,掌握统计学基础工具,培养出统计思维。西内启毕业于东京大学生物统计学专业,主要从事xxx的工作,在统计学的实践应用上拥有丰富的经验,他的丰富经验浓缩在《看穿一切的数字统计学》和《统计思维》中。前者更专业更有深度,后者更通俗更有实操性。
统计思维,是在获取数据、从数据中提取信息、论证结论可靠性等过程中表现出来的一种思维模式,对于人类提高认知有巨大的作用。全书为了让读者理解统计思维,主要分为两个大部分,一是书的主体,各种统计方法、概念与实用案例间的关系,二是“数学附录”对各种统计概念、公式的数学讲解。
全书主要讲了几个数学概念:平均、标准差、假设检验、回归分析等。前面还好,后面的难度已经超过了中国高中数学的知识范围,对于一些大学不学高数的人来说,读起来还是挺有难度的。
在大岩俊之在《实用性阅读指南》里说,一本书里对我们真正有价值的内容大约只有20%。如果你的数学基础并不好,那么书里的思维方式可能相对更有用的。
均值和中位数。在统计学上,均值和中位数都是描述几种趋势的概念。但是均值依赖于分布,往往在正态分布的数据时候有效性最大。而中位数更多的是非参数的概念,中位数是将数据从小到大排列之后,能够将数据分为两半的数。如果一个分布不是近似于正太分布,那么中位数要比均值有效果一些。所以在正确场景下正确的运用这些概念去解释生活中的事物就比较重要。当数据服从一个正态分布的时候,均值等于中位数。
经济中有“二八法则”,世界上百分之80%的财富掌握在20%的人手中,如果仅仅计算个人收入的平均值,很多人的收入都被“平均高”了。如果这时候计算中位数,我们个人收入与中位数比较,大致就可以知道自己的收入在全国是个什么水平。这个技巧也可以用来计算,求职时在在哪一个公司可以预期获得更高的收入。如果A公司平均工资很高有8000,但是中位数只有3000,而B公司人均工资有6000,但中位数有4000,你该怎样抉择呢?
统计推断有局限。在做决定的时候,大多数人都是根据自身的相关经验也就是样本来进行推断。人们常说,每个人都有自身的局限性,换一句话说,人不可能了解事物的总体。那么在用样本进行推断的时候,一定要选择合适的样本,不能以偏概全。
1936年美国大选,《文学文摘》杂志推测阿尔弗雷德•兰登将会获得531张选举人票中的370张。从这个结果来看,击败罗斯福完全无压力。在这个调查中,《文学文摘》一共发放了1000万份问卷,回收了230万份。《文学文摘》的做法没错,大的样本量肯定会提高估计的精度,没毛病。但是结果错了,罗斯福当选。为什么?因为在《文学文摘》杂志的读者中,共和党人所占比例远比美国总人口中的共和党支持者比例要高。换句话说,这个样本完全无法扩大到全美国。那么相应的结论肯定也是站不住脚的了。
统计中允许误差下保证一定概率。在统计学里面,处处存在随机性问题。它允许有误差,没有误差反令人怀疑其中有假。统计也会对一个问题拍胸脯保证,但它的保证都是基于概率形式的。而且所能保证的概率,不但不是百分之百,而且还附有误差。在统计学中的p值为5%,这本身就没有太多数学根据,而是沿用数学家费希尔的习惯,认为用5%判断p值很方便。当标准差se小于p值时,就这人某种推论或结果是可信的。
统计学有固定的规律,但是在实际应用中,并不一定完全遵守这种规律。有时候守条件闲置,也并不完全遵循双侧5%的检验标准。比如在医学领域,有一些成功率不高的手术,只要一生和患者达成一致,患者仍可能会选择尝试。在商务推广中,也有可能做一些p值较大的高风险决定,决策者可能会选择搏一搏。在这时就要做好“承担风险的准备”。
陈希孺先生在其《数理统计学简史》的序中说道:统计学不止是一种方法或技术,还含有世界观的成分——它是看待世界上万事万物的一种方法。我们常讲某事从统计观点看如何如何,指的就是这个意思。但统计思想也有一个发展过程。因此统计思想(或观点)的养成,不单需要学习一些具体的知识,还有能够从发展的眼光,把这些知识连缀成一个有机的、清晰的途径,获得一种历史的厚重感。