Biostatistics(12) Sample statist

2018-04-15 本文已影响10人 jlyq617

一万年没有更新的我，终于来更新了。实际上是因为觉得老师给的ppt有点乱，所以迟迟没有下手。懒人一直想要整理，最终还是没有整理。

总体参数

Population.png

样本参数

Sample.png

正态分布的样本参数

正态分布：

Normal.png

正态分布的样本参数：

Sample.png

中心极限定理 Central limit theorem

设从均值为μ、方差为σ^2 （有限）的任意一个总体中抽取样本量为n的样本，当n充分大时，样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布。

中心极限定理的应用

Suppose you only did one sample with same size (e.g., n = 30), how can you infer the population mean?

根据中心极限定理，样本Mean基本服从正态分布，根据Z-转化可以将该分布转化为标准的正态分布，即：

CLT Application

当 Z ~ (-1.96, 1.96),你可以覆盖95%的总体。

CLT Application

点估计和区间估计 Point Estimate& Interval Estimate

点估计：是用样本统计量来估计总体参数，因为样本统计量为数轴上某一点值，估计的结果也以一个点的数值表示，所以称为点估计
区间估计：参数估计的一种形式。通过从总体中抽取的样本，根据一定的正确度与精确度的要求，构造出适当的区间，以作为总体的分布参数(或参数的函数)的真值所在范围的估计。
置信区间（confidence interval）：一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。具体地，对于一组给定的样本数据，其平均值为μ，标准偏差为σ，则其整体数据的平均值的100(1-α)%置信区间为(μ-Ζ_α/2σ , μ+Ζ_α/2σ) ，其中α为非置信水平在正态分布内的覆盖面积，Ζ_α/2即为对应的标准分数
常用的置信区间：

Infer the 95% confidence interval of the mean gene expression value of genes in genome from a random sample of 30 genes’ expression value.
A:1. Compute the average expression value and standard deviation of the 30 genes sampled(通过R进行随机抽样)
X= 6.495324, σ= 1.856473, n = 30
2.Apply CLT

3.In this case the population sd is known
CI = [5.830933, 7.159654]