统计学七支柱
伯努利就像没有接受过工具训练的人会害怕仓库中的任何一件工具一样,缺乏统计学知识的人会相信科学方法论中的统计工具都非常危险——爱德华·B. 威尔逊
1.聚合
其想表达的思想:把数据集中的个体值进行统计汇总,概括出的信息可以超越个体。
2.信息
当把一堆观察值聚合起来,就需要“度量”-获取信息
3.似然
测量只有用于比较才是有用的。背景提供了比较的基础,或是一条基线、一个基准。有时基线是基于常识的,比如报告当天天气时,会自然地联系到自己的经验。但更常见的情形——比如源于某种疾病的儿童死亡情况——缺乏一般的常识。
毫无疑问,科学需要更多基线:真实的数据、明确的来源,以及衡量差异水平的测量尺度。这种差异是显著的还是不显著的。
现代统计学使用“概率度量”作为差异评价的基本组成部分。“似然”的概念是回答这个问题的关键:通过比较不同假设下的数据概率进行回答。
在整个“似然理论”发展过程中,以费舍尔提出“θ的极大似然估计”告一段落。似然函数可以定义为 θ 函数的观测数据 X的概率或者概率密度。将这个记法中的 X 记为固定的观测,写作 L(θ) = L(θ | X)。他会取能使 L(θ)最大化的 θ,在某种意义上,这个值是在所有看起来可能的 θ 中,使观测数据 X 最有可能发生的值。
4.相互比较
1875年高尔顿《相互比较的统计》中提出“我们可以省去参考标准,而可以通过共同接受的说法创建并间接定义它们。……(它们)完全受到相互比较影响,不需要借助任何外部标准”。
5.回归
书中介绍了多元分析、贝叶斯推断和因果推断,后续再写笔记具体展开。
6.设计
设计包括积极实验的计划、研究规模的决定、问题的设计以及处理的安排,还包括田野试验和抽样调查、质量监督和临床试验,以及在实验科学中的政策和策略评价。
7.残差
根据假设模型生成数据,继而通过统计检验比较数据和模型的偏差,比较简单的模型和复杂的模型。
以上为《统计学七支柱》笔记,本书重在“道”,而非“术”