Biostat数据-R语言-图表-决策-Linux-Python统计学

Biostatistics(12) Sample statist

2018-04-15  本文已影响10人  jlyq617

一万年没有更新的我,终于来更新了。实际上是因为觉得老师给的ppt有点乱,所以迟迟没有下手。懒人一直想要整理,最终还是没有整理。

总体参数
Population.png
样本参数
Sample.png
正态分布的样本参数
正态分布:
Normal.png
正态分布的样本参数:
Sample.png
中心极限定理 Central limit theorem

设从均值为μ、方差为σ^2 (有限)的任意一个总体中抽取样本量为n的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n的正态分布。

中心极限定理的应用

Suppose you only did one sample with same size (e.g., n = 30), how can you infer the population mean?

根据中心极限定理,样本Mean基本服从正态分布,根据Z-转化可以将该分布转化为标准的正态分布,即:


CLT Application

当 Z ~ (-1.96, 1.96),你可以覆盖95%的总体。


CLT Application
点估计和区间估计 Point Estimate& Interval Estimate

点估计:是用样本统计量来估计总体参数,因为样本统计量为数轴上某一点值,估计的结果也以一个点的数值表示,所以称为点估计
区间估计:参数估计的一种形式。通过从总体中抽取的样本,根据一定的正确度与精确度的要求,构造出适当的区间,以作为总体的分布参数(或参数的函数)的真值所在范围的估计。
置信区间(confidence interval):一个概率样本的置信区间是对这个样本的某个总体参数的区间估计。具体地,对于一组给定的样本数据,其平均值为μ,标准偏差为σ,则其整体数据的平均值的100(1-α)%置信区间为(μ-Ζα/2σ , μ+Ζα/2σ) ,其中α为非置信水平在正态分布内的覆盖面积 ,Ζα/2即为对应的标准分数
常用的置信区间:

CI

Infer the 95% confidence interval of the mean gene expression value of genes in genome from a random sample of 30 genes’ expression value.
A:1. Compute the average expression value and standard deviation of the 30 genes sampled(通过R进行随机抽样)
X= 6.495324, σ= 1.856473, n = 30
2.Apply CLT

3.In this case the population sd is known
CI = [5.830933, 7.159654]
上一篇 下一篇

猜你喜欢

热点阅读