对统计应有的基本认识
统计是要通过搜集、整理、分析研究数据,来探求数据背后事物的本质及其规律性。
这会涉及到两个基本的问题,一个是数据的获取问题,一个是如何通过数据对原事物进行描述。
数据获取
对于任何一项研究,在数据的获取中,要考虑数据是否具有任何的对照组。而数据又是如何进入处理组/对照组的。
这可以分出两种情况。一是研究人员主动设计实验,在受其控制下的过程中获取数据;二是研究人员通过观察一个在其控制之外的过程,对现成事物进行观察研究。
对于一个研究人员设计的实验,数据的获取及分组,是需要运用各种技巧,来尽可能降低数据带来的偏性(又称系统误差,相映的还有机会误差)。
采用尽可能公正的机会方法,来随机化数据对象到处理组/对照组,是最基本的手段。
除此之外,使用“安慰剂”的方式,使实验对象(往往是人)不知道其所正在分组,来排除其主观上的对实验的影响是非常重要的。
同时,可能的话,也使评估者不知道被评估的实验对象所在的分组,也能拍出评估者的主观影响。这称为“双盲性”。
所有的技巧,都旨在将会影响数据的偏性降到最小。目的在于只观察实验所考察变量与结果之间关系。
统计性描述
统计方法的运用,就是为了在数学上能反映事物本质。这类似于数学建模的过程,通过数学语言表述问题,并通过解决数学问题来找到解决原问题本身的途径。
对事物本质的描述,是最基本的目的。具体来说,主要在于描述数据分布情况,及各种分布的特征。
最直观的统计描述,一定是绘图。不论是直方图、条形图等对单变量数据分布的展示,还是散点图对多变量相关性的体现,绘图总是能给人最直观易理解的呈现。
(有一点需要注意的就是直方图与条形图的区别,就是直方图其实是通过面积而不是高度来表示数的,其纵轴上表示的是密度)
而在数值上,常通过平均数、中位数来试图反映数据集的中心位置。通过标准差来度量数据关于平均数的散布程度。
四分位数(75百分位数-25百分位数)也是数据散布的一种测度。
对于标准差,还涉及有偏估计与无偏估计的问题。
描述中的误差
在数据获取中,提到要尽可能排除数据中的偏性。那么在描述上,也同样有相应误差的存在。
偏性以相同的方式对数值产生影响是,使数值或偏大或偏小。所以需要在数据获取时,尽可能的排除。
而机会误差是不可避免的,并随着不同次的测量变化,对数据的影响有时向上有时向下。可通过对同一对象的一系列重复测试的标准差来反映其大小。
如果数据获取的过程中没有偏性,大量重复测量的平均可以抵消机会误差。
离群点
获取的数据中,往往有个别极端的测量值,又称离群点。这些离群点,对于计算平均值、标准差会有极大的影响。
但对这些离群点的处理还需谨慎,并不是所有的离群点都是错误数据。排除离群点需要有合理的理由,不能简单地忽视。