《赤裸裸的统计学》回顾--(9至12章)

2020-03-14  本文已影响0人  般若般罗蜜多

第九章  中心极限定理

        ·一辆坐满肥胖乘客的客车抛锚在路边,推断一下,它的目的地是马拉松比赛场地,还是国际香肠节?

        ·有时候统计学就像魔术,能够从少量数据中得出不可思议的强大结论。例如只需要对1000个美国人进行带电话调查,就能洞悉美国总统大选的得票数。此外,还有食品沙门氏菌的检测。

        ·中心极限定理的核心要义:一个大型样本的正确抽样与其所代表的群体存在相似关系。相关推理如下:

            -1、如果我们掌握了某个群体的具体信息,就能推理出这个群体汇总正确抽取的随机样本的情况。

            -2、如果掌握了某个正确抽取的样本的具体信息(平均值和标准差),就能对其所代表的群体做出令人惊讶的精确推理。

            -3、如果我们掌握了某个样本的数据,以及某个群体的数据,就能推理出该样本是否就是该群体的样本之一。例如,已知马拉松参赛选手的平均体重,和客车上肥胖乘客的平均体重,就可以计算出客车肥胖乘客是不是马拉松选手了。距离3个标准差则有99.7%的概率,2个标准差95%,1个标准差68.2%。

            -4、如果我们已知两个样本的基本特性,就能推理出这两个样本是否取自同一群体。

        ·根据中心极限定理,任意一个群体的样本平均值都会围绕在该群体的整体平均值周围,并且成正态分布;取样次数越多,结果就越接近正态分布;样本数量越大,分布就越接近正态分布。

        ·标准误差:用来衡量群体中所有个体的离散性,但仅仅衡量样本平均值的离散性。即标准误差就是所有样本平均值的标准差。(多个样本,一个样本有多个对象)

            -标准误差表达式SE = s/\sqrt{n} ;其中SE是标准误差,s表示抽样群体的标准差,n表示样本的数量。例如,马拉松运动员群体有62个人,体重平均体重是162斤,标准差是36,则标准误差是:36/\sqrt{62}  = 36/7.9 = 4.6。客车肥胖乘客群体的平均体重是194斤,192 - 162 = 32,32大于4.6的三倍以上,所以可以有超过99.7%的概率判断客车乘客不是马拉松的参赛运动员。

        ·统计推断

            -1、如果你从某个研究群体中多次随机抽取数量足够多的样本,那么这些样本的平均值会以整体平均值为中心呈现正态分布(不论该群体自身的分布情况是怎样的)。

            -2、绝大数的样本平均值都会紧紧围绕在整体平均值的周围,通过计算标准误差就可以知道这些样本平均值到底是离得‘近’还是‘远’。

            -3、通过中心极限定理,我们便可以知道样本平均值与整体平均值之间的距离及其概率。样本平均值离整体平均值两个标准误差的概率相对较低,3个或以上的标准误差的概率基本上为零。

            -4、如果出现某个概率比较低的结果,我们便可以推测是不是有一些其他因素介入,而且概率越低,其他因素介入的可能性就越大。

第十章  统计推断与假设检验

        ·垃圾邮件过滤、癌症筛查、恐怖分子追捕,我们最不能容忍哪件事情出错,又有哪件事情是可以“睁一只眼睛闭一只眼睛”的?

        ·一个赌徒连续掷骰子十次的点数都是6,那就应该检查一下他的骰子,毕竟这是六千万分之一的概率。另外应用还有药物效果的推断、雷击的因素。

        ·统计学的意义并不是进行无数次高深的数学推算,而是在于更好洞察社会现象背后的成因

        ·计算平均值差异的标准误差平均值比较公式:(x样本的平均值 - y样本的平均值)/ \sqrt{x标准差的平方/n   +  y标准差的平方/n} 。即假如两个样本所在群体的平均值是相等的(即它们取自同一群体),那么它们的平均值之差小于一个标准误差的概率是68.2%,两个是95%,三个99.7%。

        ·单双尾检验假设。一般来说只有有一种假设,但是也有两种假设,例如,一种假设是篮球员的平均身高比正常人高或低,另一种假设是篮球员的平均身高比正常人高。则,前者要进行双尾假设检验,后者只需进行单尾检验。比如,我们都知道篮球运动员的平均身高是高于正常人的,所以只需要进行单位假设检验,即假如假设成立,那么平均值差异大于或等于1.64个标准误差的概率只有5%。因此,如果两组男性的身高之差位于该区间,那么我们就可以推翻假设,即证明篮球运动员的身高并不是高于正常人。

第十一章 民意测验与误差幅度

        ·民调结果显示,有89%的美国人不相信政府会做正确的事,有46%的美国人认可奥巴马的工作表现。这个结果可以代表美国人的真是想法吗?

        ·百分比的标准误差计算公式\sqrt{p(1 -p)/n} 。例如,对民意进行测验,是否认可奥巴马的工作表现,其中p代表某个特定观点的回应者比例,(1-p)代表不同观点的回应者比例,n代表样本所有回应者的数量。由此可知,样本量越大,标准误差越小;p与(1-p)的差距越大,标准误差也会越小。比如,有95%回应者表达某种观点时,其样本的标准误差就会小于回应者观点只有50%的相同率的样本的标准误差。0.05*0.95=0.047,0.5*0.5=0.25,分子越小,标准误差越小。

            -事例:假如进行一次“选举后测验”,500选民中有53%投了共和党(特朗普),45%投给了民主党(奥巴马),还有2%投给其他人。那么,以共和党为参照率p,则测验的标准误差就是2%(0.02)。由此可知,约有68%的概率共和党会获得53%\pm 2%的支持率,即(51%~55%支持率)因为一个标准误差内是68%。同理,民主党有68%的概率获得45%\pm 2%的支持率,即(43%~47%支持率)。而问题在于,虽然知道共和党可能比民主党的支持率高,但是这里只有68%的概率可以肯定,明显距离显著性为0.05还远。

            -因此,要达到显著性为0.05的区间,要扩大两个标准差(2*0.02),即95%。这时候就有95%认为共和党的支持率是53%\pm 4%,即49%~57%的支持率,民主党是45%\pm 4%。即41%~49%。很明显这里虽然有95%的准确性,但是支持率有重合的49%,所以还是不理想的。

            -所以,要达到95%的准确率,得从样本数量下手。前面提到,样本只有500人,如果我们将样本提高到2000人,那么标准误差就是:\sqrt{0.52*0.45/2000}  = 0.01,即标准误差是1%。如果想要置信区间为95%时,可以扩大两个标准误。即有95%的概率可以知道共和党的支持率是52%\pm 2%,即50%~54%,民主党的支持率为45%\pm 2%,即43%~47%。这个结果就相当有说服力了。

            -综上所述,要结果概率升高的话,可以从标准误差和样本数量入手

        ·但是,进行民意测验或采用别人的调查成果时,应该反复问下自己以下几个问题:

            -1、这个样本能正确地反映目标群体的真是观点吗?这里主要是之前提过的偏见对数据采集的危害。

            -2、采访过程中的问题设置能得出对研究课题有用的信息吗?例如,调查民众是否支持死刑时,如果不把无假释的犯人加进样本,那么支持率是挺高的的,如果加进去的话,那么支持率就会变低了。所以,对于一个复杂的话题,只看一个问题或一次民调结果是不可能完全看透公众的心理的,此时更需要有大局观和联想力。

            -受访者说的一定是真的吗?民意测验就像是网恋,在对方所提供的信息里总是有那么一点“言不由衷”的成分。因为,人都有撒谎的次数,尤其是问题比较尴尬或敏感的时候。受访者可能会夸大他们的收入,或在某个月的做爱次数上“修饰一番”等。所以,如果担心受访者会羞于表达某个社会接受度不高的观点时,可以采用迂回的问法,比如,“你身边有认识的人”持有这种观点吗?

第十二章  回归分析与线性关系

        ·你认为什么样的工作压力更容易使职场人士猝死,是“缺乏控制力还是话语权”的工作权,还是“权力大,责任也大”的工作?

            -研究表明,并不是那些“权力大,责任也大”的压力置你于死地,而是那种等着上司给你布置任务,但自己有没有权力决定应该怎样完成、何时完成这些任务的压力把人压垮了。

        ·回归分析:能够控制其他因素的前提下,对于某个变量与某个特定结果之间的关系进行量化。例如,研究样本低级别工作对样本人群的伤害时,应保证其他条件是相似的,比如吸烟习惯。

        ·回归分析寻找的是两个变量之间的最佳拟合线性关系。例如身高和体重的关系,虽然不是绝对,但是一般来说,身高越高,体重越重。当运用回归分析去拟合多数据的样本时,常用方法是最小二乘法(OLS)

        ·当有超过一个自变量(也可成解释变量)的时候,通常称其为多元线性回归分析或多变量复回归分析。例如,解释体重这个因变量时,就有多个自变量(年龄、性别、饮食、运动等)。所以,要证明多自变量对因变量的影响时,可以拟合为一个系数来描述,当然,自变量不是越多越好。

上一篇 下一篇

猜你喜欢

热点阅读