统计基础04:总体参数与样本估计总体参数
总体包含所有样本,描述总体的参数被称为总体参数,如总体均值、总体标准差。但是我们常常没有办法描述总体,故常常随机使用总体中的部分样本进行总体参数估计。
1.总体参数描述总体。
引言:假设我们要记录肝脏所有细胞中gene X的mRNA转录本情况,假设我们有足够的时间和金钱,那么我们就可以将所有肝细胞中gene X的mRNA转录本情况检测并绘制如下(假设这里有2400亿个细胞的数据)并将其转换成直方图和分布的形式:「总体参数:直方图中的数据包含了肝脏中所有肝细胞的数据,故直方图代表了一个总体(population)」。总体对应的均数(Mean)则为「总体均数(Population Mean)」、对应的标准差(Standard Deviation,SD)则为「总体标准差(Population SD)」。
除以上讨论正态分布中的参数外,在「其他分布中(如指数分布、gamma分布)也存在对应的总体参数,在后续学习中将一一补充」。
-
直方图和分布均向我们展示:
-
①由肝脏所有肝细胞数据组成的直方图和分布构成正态分布,该分布的均值=20,标准差=10。标准差展示的是所有数据是如何围绕着均值分布的,标准差越大,则数据围绕均值分布越分散,反之则越集中。
-
②10-30 mRNA转录本的数据最多,而低于10或者高于30的数据较少。
-
我们可以使用直方图或分布来计算概率和统计指标,二者的结果等同。例如分别同直方图和分布计算出mRNA转录本≥30的概率均为0.16。
- 直方图求概率:转录本≥30的肝细胞数量除以总肝细胞数量
- 分布求概率:转录本≥30曲线下面积除以总的曲线下面积。
2 为什么要用样本估计总体?
肝细胞中约有2400亿个肝细胞,我们几乎不可能测量总体中的所有个体,故我们仅能随机选择一些样本进行检测,利用少量样本对总体进行估计。如我们随机选取2400亿个肝细胞中的5个进行测量,以此估计总体参数,然后以此为基础对其他结果进行推断。
「估计总体参数的原因:确保我们从实验中获得的结果是可重复性的。」 换句话说,从相同的总体中进行抽样检测,第一次获得的结果与第二次、第三次、第n次获得的结果是没有统计学差异的。如果将这5个测量结果作为训练数据集放在机器学习的情景中,那么它将非常有用,因为以此5个数据估计的总体曲线就是机器学习方法预测的目标。
- 每一次的不同估计值如何向我们展现一个可以重复的结果(reproducible results)?
随着样本的增多,我们估计的总体均值和总体标准差更加准确,也就是说我们有更大的信心(confidence)估计正确。
「统计学中一个重要的目标是,量化我们估计总体的可信度(confidence)。」 具体而言,可以通过p值(p value)和置信区间(confidence intervals)量化估计总体参数的可信度(confidence)。通过上面的讨论,总体而言,样本数据越多,估计总体的可信度越高。更加通俗的说,纳入的样本越多,我们越有信心认为我们估计总体的结论是正确的。
「即使2次试验估计的总体均数和总体标准差不同,我们可以使用p值或者置信区间的方法来量化该结论的可信度」。通过统计学方法,我们可以得出新的结论,尽管两次取样的结果表面上不相同,但他们的差异不具有统计学显著性。这就意味着,我们可以得出重复的结果。
3.样本如何估计总体参数?
例,基于5个随机样本对以上总体进行估计。从总体中选取5个肝细胞进行检测gene X的转录本情况。
- 第一,因为我们仅有估计的总体均值(样本均值估计总体均值),故这里用样本均值(x-bar)代替总体均值。
- 第二,因为样本的方差倾向于低于总体方差,除数为n可能会低估总体方差。故除数是(样本数量-1,n-1)而不是样本数量n,以代偿样本均值代替总体均值引起的变化。
样本估计总体均值、标准差和方差的意义何在:随着样本数量的逐渐增加,估计的总体参数更加准确、估计参数的置信度更高。但是仅仅5个样本便可以较好的估计总体参数,可以为我们节省了大量的劳力和财力。
4.小结
总体包含所有研究样本,描述总体的参数被称为总体参数,如总体均值、总体标准差。但是我们常常没有办法描述总体,故常常使用总体中的部分样本进行总体参数估计。通过估计总体参数和量化可信度,便可以在将来的试验中产生可以重复的结果、推测将来试验的结果。
- 从一个研究整体中获取少部分样本,使用相同的公式估计总体参数,但需要除数(n-1)代替n以补偿样本均值代替总体均值带来的偏差。为什么估计总体标准差时需要除以(n-1),将会在接下来的章节谈及。
参考视频: