生物统计学---几种常见分布

2021-04-29  本文已影响0人  日月其除

写在前面
在学习统计学中,一直没有真正理解和记住常见的统计学分布,对后面的统计推断也迷迷糊糊,所以在这里总结整理一下。
参考书籍:李春喜 姜丽娜 邵云 张黛静编写生物统计学第五版


几个概念:
频率&概率:n次重复实验,事件A发生m次,则\frac{n}{m}为事件A发生的频率。当n不断增大时,\frac{n}{m}逐渐稳定并且接近某一个值,记作p,那么此时定义p为其概率。
概率分布::简单来说,就是事件发生x次(x为随机数字)时的概率的分布情况。例如种子发芽,发1~n颗事件与其相对应的概率之间的关系。
大数定理:一言蔽之,n足够大的时候,事件A发生的频率等于事件A的频率。
离散型随机变量:变量x_i(i=1,2,...n)都有一个相应的概率,n为有限多个或者无线可列多个。比较简单的例子就是仍骰子,扔到1~6的六个事件概率均为1/6。
连续型随机变量:例如人类身高这种数据,一般需要分组求其频率,在无限大n(即将数值区间进行无限细化),将频率就接近概率。
无偏估计:对N的近正态总体抽样,每次抽取n,总共有C_{N}^{n}种抽样方式。记录每种抽样方式所得到的样本的平均值和方差,标准差。所以就得到了C_{N}^{n}个样本的平均数以及方差,标准差。除以n计算其平均值,样本平均数的平均值=总体平均值,样本方差的平均数s^2=总体方差\delta^2。因此,样本平均数\overline{x}可以用来估计总体平均数u,样本方差s^2可以用来估计总体方差\delta^2。所以这两个是无偏估计。样本标准差不是无偏估计。这里的标准差不是方差开根号,而是使用C_{N}^{n}个样本标准差求取平均值。此处的方差是使用C_{N}^{n}个样本方差求均值。
注意:C_{N}^{n}个样本的平均数的平均值等于总体平均值,以此推断单次抽样的平均值可以用来估计总体平均值。我的理解是,当n足够大的时候,单次抽样的平均值\overline{x}在总体平均值左右徘徊,抽样误差满足正态分布。n越大,抽样误差除以n,就会导致误差非常小,单次抽样平均数\overline{x}无限接近总体平均值u

几种常见的理论分布:


二项式分布:

二项式分布图
图中可以看出,当n值变大的时候,或p值接近0.5的时候,概率分布趋近对称。
注意:其中纵坐标是n次实验中事件A发生x次的概率,p是一次实验中,事件A发生的概率。

泊松分布


正态分布


t分布
由前面的无偏估计可知,当样本容量n比较大(n>30)的时候,可以用样本方差s^2估计总体方差\delta^2。但是如果样本容量不够大的时候,即小于30的时候,这个时候\frac{\overline{x}-u}{\frac{s}{\sqrt{n}}}不服从正态分布。我的理解就是从N个总体中,抽选n个样本,一共有C_N^n种方式,但是如果n很小,那么每次抽样所得到的平均和总体平均数之间就会相差很大。那个抽样误差就不满足正态分布。而是满足自由度df = n -1的t分布。
t = \frac{\overline{x}-u}{s_{\overline{x}}} = {\frac{\overline{x} - u}{\frac{s}{\sqrt{n}}}}
其中s_{\overline{x}}为样本平均数的标准误。样本标准误反映的是样本均数之间的差异,是多个样本平均数的标准差。

t分布概率密度函数
t分布种平均数u_t = 0(df > 1)方差{\delta}^2 = \frac{df}{df-2}。t分布曲线和正态分布很像,当df>30时,曲线接近正态分布。
t分布和正态分布曲线

\chi^2检验
从标准正态分布N(0,1),抽取k个样本,得到k个值,将这k个值得平方和加起来,定义为\chi^2


该式子后面利用表准正态分布的转化公式。
\chi^2分布的概率累积函数:
F(\chi^2) = \int_{0}^{\chi^2}f(\chi^2)d(\chi^2)
\chi^2分布的曲线主要由自由度决定。即从标准正态分布种抽取的独立样本数量决定,当抽取的独立样本数量k越大,则自由度 df= k -1就越大,那么就越接近正态分布。

F分布
刚才讲到的\chi^2分布是从标准正态分布(非标准正态分布可以进行转换)中抽取k个样本,计算其平方和。
这里的F分布是从正态分布N(N, {\delta^2})中抽取样本容量为n_1n_2的两个样本。样本方差分别为s^2s^2,定义:
F = \int_0^Ff(x)dF

F分布曲线
我感觉和\chi^2的分布还是蛮像的。
总结
遇到考试题时,第一步要分析判断该事件符合什么样的分布,再把公式往里面套用。
对t分布及后面的\chi^2F分布的理解,可以加深对后面统计推断中的t检验,卡方检验有合理的运用。判断在哪种情况下使用哪种检验方式来推断p值。
上一篇 下一篇

猜你喜欢

热点阅读