【读书笔记】赤裸裸的统计学

2020-08-08  本文已影响0人  无暇的风笛

1、什么是统计学

  1. 什么是数字、数值、数据
  2. 统计学是通过搜索、整理、分析、描述数据等手段,以达到推断所测对象的本质,甚至预测对象未来的一门综合性科学

2、统计学会说谎

  1. 相同的数据,不同的指标表现方式会造成不一样的理解,比如税率从2%增长到了4%,看起来才增长了2%,但是增长率却是100%,也就是说原本缴1000的税现在要缴2000!!!气抖冷。

  2. 百分比不会撒谎,但有时候也会夸大其词或避重就轻。比如:

    • 我今年炒股收益率增长了300%,看起来是不是很多??但是上一年我才赚了5块,今年才赚了20,甚至还不够喝一杯摩卡咖啡。
    • Boss宣布全公司每人涨薪10%,好高兴,你的工资5K * 10%=0.5K,你的TL 50K * 10%=5K,哦豁,听起来涨薪10%比他的工资是你的10倍是不是舒服多了。
  3. 相同的数据,不同的统计窗口也会造成不一样的理解。

    年份 员工 损益(单位:万) 去年同比
    2019 A 10 -
    2019 B 10 -
    2019 C 10 -
    2019汇总 - 30 -
    2020 A 12 +20%
    2020 B 0.5 -95%
    2020 C 12 +20%
    2020汇总 - 24.5 -18.3

    悲观的:我们的经济水平越来越糟,2020年的经济水平同比下跌16.4%

    乐观的:我们的经济水平越来越好,2020年有接近66.7%的人都比上年的财富增长了

  4. 名义值和实际值:是否考虑通货膨胀因素

  5. 好消息是,统计学帮助我们得到重要的结果,我们接下来对结果的有效反应(行动)可以帮助我们改善结果。

    坏消息是,统计学也有可能只是为了让数据看上去比较顺眼。(坏账转催收,辍学转留学、转校,医生不为严重病危的患者做手术),任何与数据不好看的冲突都不会有体现。

3、相关性和相关系数

  1. 相关性:相关性的体现表现的是两个变量之间的关联程度,比如温度和冰激凌,锻炼与体重。

  2. 相关系数:介于-1和1之间,相关系数越接近1和-1,变量间的关联性就越强。作为相关性的一个描述性工具,相关系数不受变量单位的限制,比如锻炼的频率与体重的多少(之类的散点图)
    \frac{1}{n}\Sigma_i^n \frac{(x_i-\bar{x})}{\sigma_x} \frac{(y_i-\bar{y})}{\sigma_y}

  1. 根据相关性系数,可以大致预测两者之间的关联和关系程度做出对应调整(比如受教育程度越高生活越好;书读得越多见识越广)

4、概率、期望值、回归平均数、标准误差

  1. 生活中可以根据期望值与投入对比,判断某一项事情是否值得投入

  2. 有些人考试某次可能超常发挥、大失水准,只不过是某次交好运/厄运,当好运/厄运结束时,随之而来的表现将会更加接近平均值

  3. 标准误差:符合正态分布(中心极限定理),描述样本与整体的离散程度

    • 要判断样本是否抽取自一个群体,可以通过计算样本平均值与群体平均值的差异,他们之间将会呈正态分布,比如说判断一堆零件是否符合标准

    • 要从样本估计整体,比如要从一份投票结果反映整体的投票,百分比的标准误差公式:
      \sqrt{p·(1-p)·\frac{1}{n}}
      p代表某个特定观点的回应比例,n代表样本的回应数

5、线性回归

在控制其他影响因素的前提下,对某个具体变量与某个特定结果之间的关系进行量化。

基本术语:

  1. 因变量:依赖其他变量而变化
  2. 自变量(解释变量\控制变量):解释因变量的变量
  3. 回归系数:揭示自变量与因变量之间相关关系,主要关注3个方面
    • 正负:正负反映自变量和因变量的相关关系方向,比如一般身高越高体重越中,回归系数为正,锻炼越多脂肪越少,回归系数为负。
    • 大小:大小反映自变量的变化对因变量的影响大小

常用方法:

  1. 最小二乘法(OLS):OLS直线可以让所有数据的残差平方和最小

回归分析要谨慎,避免:

  1. 用回归方程式来分析非线性关系:回归系数描述的是“数据最佳拟合直线”,一定是一条直线,如果两个变量之间不存在一致的线性关系,不能使用回归分析
  2. 相关关系并不等同于因果关系:例如我国人均gdp不断上升,我国的珍稀动物物种越来越少,这两者看起来像是存在着负相关关系,但是假设人均gdp下降了,物种也不会因此增加,这两者只是伪因果关系
  3. 因果颠倒关系:例如发达A地区的教育支出要高于中等B地区的,就算两个变量之间的正相关关系再明显,也不能断定因果关系的方向,因为你不知道究竟是对教育的支出才促使的经济发展,还是因为经济发展了才促进了教育的投入;另一个例子是gpd的增长率与失业率。因此,对容易受因变量影响的自变量,使用回归分析是无意义的
  4. 变量遗漏偏差:例子,打高尔夫球的人容易犯心脏病和关节病。这个结论就是没有考虑到打高尔夫球的群体和年龄。在研究高尔夫球对健康的影响时必须正确控制年龄的变量。一般来说,老年人才有更多的时间打高尔夫球,这个人群的年龄较不打高尔夫球的人较高,如果将年龄作为解释变量纳入到回归分析中,得到的结论更可能是年龄相仿的人,打高尔夫球的比不打的更健康。在这个例子中,年龄就是被遗漏的变量,这种研究分析,就算计算得再仔细,结果也会毫无根据性。
  5. 数据矿(变量过多):较变量遗漏产生的影响,是不是加多点变量就会更好?并不是!加入的无关变量过多,回归分析的结果就会被稀释。例如当研究一件事情产生的原因时,因为不知道原因,所以加入了尽可能多的潜在变量,看看最后有哪些变量具有显著的统计学意义,这种行为其实是无意义的,因为在最后,总会有一个无关变量恰到好处地达到了显著性水平的门槛,而且这类变量也是很难被察觉的。(某些无关变量最后也达到了显著性水平的门槛,因为总有人把最后拿到结果对着变量自圆其说)
  6. 高度相关的解释变量(多元共性):在一个回归方程里,有多个解释变量高度相关时,这样会造成无法分清变量对因变量的真是关系。例如,研究身体相对不监控的IT工作者,究竟是对着电脑的时间太多造成的,还是经常坐着不运动造成的,这两个变量的划分就会显得很模糊,很难得到对应变量的回归系数

回归分析依然是一个非常棒的统计学工具,在合理运用的前提下,能够为我们提供结果与变量间关键的相关关系,成为科学方法的一个重要组成部分

上一篇下一篇

猜你喜欢

热点阅读