统计基础04:总体参数与样本估计总体参数

2020-08-03  本文已影响0人  珠江肿瘤

总体包含所有样本,描述总体的参数被称为总体参数,如总体均值、总体标准差。但是我们常常没有办法描述总体,故常常随机使用总体中的部分样本进行总体参数估计。

1.总体参数描述总体。

引言:假设我们要记录肝脏所有细胞中gene X的mRNA转录本情况,假设我们有足够的时间和金钱,那么我们就可以将所有肝细胞中gene X的mRNA转录本情况检测并绘制如下(假设这里有2400亿个细胞的数据)并将其转换成直方图和分布的形式:

「总体参数:直方图中的数据包含了肝脏中所有肝细胞的数据,故直方图代表了一个总体(population)」。总体对应的均数(Mean)则为「总体均数(Population Mean)」、对应的标准差(Standard Deviation,SD)则为「总体标准差(Population SD)」

除以上讨论正态分布中的参数外,在「其他分布中(如指数分布、gamma分布)也存在对应的总体参数,在后续学习中将一一补充」

2 为什么要用样本估计总体?

肝细胞中约有2400亿个肝细胞,我们几乎不可能测量总体中的所有个体,故我们仅能随机选择一些样本进行检测,利用少量样本对总体进行估计。如我们随机选取2400亿个肝细胞中的5个进行测量,以此估计总体参数,然后以此为基础对其他结果进行推断。

「估计总体参数的原因:确保我们从实验中获得的结果是可重复性的。」 换句话说,从相同的总体中进行抽样检测,第一次获得的结果与第二次、第三次、第n次获得的结果是没有统计学差异的。如果将这5个测量结果作为训练数据集放在机器学习的情景中,那么它将非常有用,因为以此5个数据估计的总体曲线就是机器学习方法预测的目标。

为了回答这个问题,我们从仅含2个数据的试验开始,估计的总体均值(estimated population mean)=11;估计的总体标准差(estimates population standard deviation)=11.3。与总体均值比较,估计的总体均值偏离较多;与总体标准差进行比较,估计的标准差与总体标准差较接近。 接着我们随机测量总体中的3个数据,估计的总体均值(estimated population mean)=15.3;估计的总体标准差(estimates population standard deviation)=11。 接着我们随机测量总体中的5个数据,估计的总体均值(estimated population mean)=17.6;估计的总体标准差(estimates population standard deviation)=10.1。

随着样本的增多,我们估计的总体均值和总体标准差更加准确,也就是说我们有更大的信心(confidence)估计正确。

「统计学中一个重要的目标是,量化我们估计总体的可信度(confidence)。」 具体而言,可以通过p值(p value)和置信区间(confidence intervals)量化估计总体参数的可信度(confidence)。通过上面的讨论,总体而言,样本数据越多,估计总体的可信度越高。更加通俗的说,纳入的样本越多,我们越有信心认为我们估计总体的结论是正确的。

「即使2次试验估计的总体均数和总体标准差不同,我们可以使用p值或者置信区间的方法来量化该结论的可信度」。通过统计学方法,我们可以得出新的结论,尽管两次取样的结果表面上不相同,但他们的差异不具有统计学显著性。这就意味着,我们可以得出重复的结果。

3.样本如何估计总体参数?

例,基于5个随机样本对以上总体进行估计。从总体中选取5个肝细胞进行检测gene X的转录本情况。

样本估计总体均值、标准差和方差的意义何在:随着样本数量的逐渐增加,估计的总体参数更加准确、估计参数的置信度更高。但是仅仅5个样本便可以较好的估计总体参数,可以为我们节省了大量的劳力和财力。

4.小结

总体包含所有研究样本,描述总体的参数被称为总体参数,如总体均值、总体标准差。但是我们常常没有办法描述总体,故常常使用总体中的部分样本进行总体参数估计。通过估计总体参数和量化可信度,便可以在将来的试验中产生可以重复的结果、推测将来试验的结果。

参考视频:

  1. https://www.youtube.com/watch?v=vikkiwjQqfU

  2. https://www.youtube.com/watch?v=SzZ6GpcfoQY

上一篇 下一篇

猜你喜欢

热点阅读