(一)生物统计学基本术语
所谓统计学,一个简单的理解就是以少辩多,以小博大。因为实际生活中很难得到目标调查群体的所有值,因此不得不采用抽样的方法来由样本估计整体。
这里简单介绍下生物统计学里面的基本术语。
样本与群体
群体是指需要调查的所有个体,但是群体常常是可望而不可求的,因此我们使用抽样的方法从群体随机抽取一定量样本来对群体进行估计。
期望与平均值
平均数是一个统计学概念,期望是一个概率论概念。
平均数是实验后根据实际结果统计得到的样本的平均值,期望是实验前根据概率分布“预测”的样本的平均值。
之所以说“预测”是因为在实验前能得到的期望与实际实验得到的样本的平均数总会不可避免地存在偏差,毕竟随机实验的结果永远充满着不确定性。如果我们能进行无穷次随机实验并计算出其样本的平均数的话,那么这个平均数其实就是期望。当然实际上根本不可能进行无穷次实验,但是实验样本的平均数会随着实验样本的增多越来越接近期望,就像频率随着实验样本的增多会越来越接近概率一样。当期望值与群体平均值一样时便可以称期望为群体的无偏估计。
中位数与众数
将样本或群体按从小到大进行排序,中间的那个数便称为中位数。而众数则是指在样本或群体中出现次数最多的数值。
方差(variance)与标准差(standard deviation)
方差和标准差都是用来对样本或群体离散程度进行估计得一个统计学概念,标准差是方差的平方根。
在计算群体与样本的方差时有一点区别,计算群体的方差时分母为群体总数N,而计算样本方差时分母则为n-1,n-1又称为自由度,使用n-1是为了是方差估计是无偏的。
z-score 标准化
z-score标准化,也称为标准化分数,这种方法根据原始数据的均值和标准差进行标准化,经过处理后的数据符合标准正态分布,即均值为0,标准差为1(根据下面的转化函数很容易证明),转化公式为:变异系数(coefficient of variation,CV)
一般我们会使用方差或标准差来评价群体的离散程度或变异程度,但是当两个群体的方差相等时,凭方差已无法对两个群体的变异程度进行比较。于是,统计学家引入变异系数的概念,变异系数=(标准差/均值)*100%。变异系数不会受数据尺度的影响,因此常用来进行不同样本见变异性的比较。
大数定律与中心极限定理
这个解释知乎上面貌似要打起来了。挑了个回答字数最少的能一下就看明白的。下面的也大部分来自于知乎回答https://www.zhihu.com/question/22913867。
中心极限定理是说无论抽样分布如何,所有抽样的均值服从正态分布。而大数定律和正态分布无关,是说样本大了抽样分布近似总体分布。
再具体一点说中心极限定理:
中心极限定理
1、样本的平均值约等于群体的平均值;
2、不管总体是什么分布,样本平均值总是分布在群体平均值周围,呈正态分布。
#注 图中的抽样足够多是指每次抽样的样本数量,一般要大于30个才认为有效。
再来简单谈谈大数定律,不过在这之前呢先说说小数定律——如果统计的数据很少,那么事件就表现为各种极端情况,而这些情况都是偶然事件,跟他的期望值(或称实际值)没有关系。
而大数定律是说如果统计数据足够大,那么事物出现的频率就能无限接近他的期望值(总体实际情况)。