给女朋友写的生统资料_Part10

2019-06-03  本文已影响0人  城管大队哈队长

前面一部分讲了些概率论的知识,这部分我们来讲讲课上讲过的随机变量及其分布。

可以把这一部分当作速查。

离散型随机变量

二项分布(Binomial Distributions)

如果记 X 为 n 重伯努利实验中成功(记为事件 A )的次数,则 X 的可能取值为0,1……,n。记 p 为每次试验中 A 发生的概率,即 P(A)=p,则 P(\bar{A})=1-p。这个分布称为二项分布,记为X\sim{b(n,p)}

那么事件成功 k 次的概率就是
P(X=k)=C_{n}^{k}p^k(1-p)^{n-k}\quad,k=0,1,……,n

关于组合数符号C_n^{k}和C_{k}^{n}写法一直有点争议,只要知道是怎么算就好。当然还有\binom{n}{k}

二项分布是一种常用的离散分布,比如:

二项分布的均值、方差(variance)、标准差为(Standard Deviation):
\mu=np\\ \sigma^2=npq\\ \sigma=\sqrt{npq}

泊松分布(Poisson distribution)

泊松分布的概率分布列为:
P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}
泊松分布只有一个参数,即 \lambda\lambda >0。记为 X\sim P(\lambda)

泊松分布常与单位时间(或者单位面积、单位产品)等上的计数过程相联系,比如

泊松分布的均值(数学期望)和方差均是
\mu=\sigma^2=\lambda
泊松分布还有一个非常实用的特性,即可以用泊松分布作为二项分布的一种近似。当二项分布n很大,p很小,而乘积 \lambda=np 的大小适中时候,可以用泊松分布近似。

根据课件上来说,一般是
n >= 100\\ np <=10

超几何分布(Hypergeometric distribution)

从一个有限总体中,进行不放回抽样往往会遇到超几何分布。

设有 N 件产品,其中有 M 件不合格品。若从中不放回地随机抽取 n 件,则其中含有的不合格的件数 X 服从超几何分布,记为 X\sim{h(n,N,M)}。超几何分布的概率分布列为
P(X=k)=\frac{C_M^k C_{N-M}^{n-k}}{C_N^n}
超几何分布的数学期望和方差为:
\mu=n\frac{M}{N}\\ \sigma^2=\frac{nM(N-M)(N-n)}{N^2(N-1)}
当抽取个数远小于产品总数的时候,每次抽取后,总体中的不合格率 p=\frac{M}{N} 改变甚微,所以不放回的抽样就可以近似变成放回抽样。这时候超几何分布就可以用二项分布近似了。

跟我们相关的超几何分布的应用就是基因富集分析(enrichment analysis)。

基因富集常见的方法有

关于基因富集的部分我们后面再讲。这里我只提下利用超几何分布来检验富集分析。

比如我们对根再生这个通路很感兴趣。我们想要知道这个通路在我们的差异基因中是不是显著富集的。我们得到了 2000 个差异基因,跟根再生通路相关的基因有50个。拟南芥全体基因有 25000 个,其中跟根再生通路相关的有 100 个。那么这里 25000 就是 N,100就是M。2000就是n,50就是k。然后我们就可以计算 p 值了。

当然,p值应该是要考虑加上极端值的累积概率。可能不单单是一个点的值。即应该用1-phyper而不是dphyper。后面差异富集部分一起讲吧。

连续型随机变量

正态分布(Normal Distributions)

一个随机变量如果是由大量微小的、独立的随机因素的叠加结果,那么这个变量一般都可以认为服从正态分布。比如人的身高、测量误差等。

正态分布的密度函数和分布函数太长了,就不写了,可以自己去翻阅PPT。正态分布记为 X\sim{N(\mu,\sigma^2)}

正态分布还可以转换成标准正态分布:

若随机变量 X\sim{N(\mu,\sigma^2)},则 U=(X-\mu)/\sigma \sim {N(0,1)}

正态分布的应用应该就是后面要讲到的 t-test,所以这里就不讲了。

还有一点就是当前面的二项分布的
np\ge5\\ nq\ge5
就是用正态分布来近似二项分布,
\mu=np \\ \sigma=\sqrt{npq}

计算

分布函数、概率分布列、概率密度函数

分布函数就是累积分布函数(Cumulative Distribution Function,CDF),指的就是小于等于 a 的值出现概率的和。具有累积特性。比如对于标准正态分布而言,到负无穷到 0 为止的概率和就是0.5。常表示为:
F(a)=P(X \le a)
就像下图就是正态分布的累积分布函数图

概率分布列,或者说概率质量函数(probability mass function,PMF),就是针对离散型变量而言,离散型变量在特定取值上的概率。

概率密度函数(probability density function,PDF)就是针对连续型变量而言。因为连续型变量在特定取值上的概率肯定是0,所以对连续型变量使用概率分布列是没有意义的。概率密度函数曲线上的面积就是概率值。

下图就是正态分布的概率密度函数图

10_2.png

这个短暂篇幅不太好讲,如果想再深入,建议看书。

R实现

R的实现可以用《R语言实战》第二版的第90页的这张图表示:

10_3.png

dpqr加上对应的分布缩写,就可以变成任一的概率函数了。让我们来稍微解释下dpqr

d开头的密度函数应该是包含了离散型随机变量的概率分布列连续型随机变量的概率密度函数

比如我们想要算二项分布的概率分布列。以扔硬币为例,扔3次硬币,每次朝上的概率为0.5。

# 0,1,2,3次朝上的概率
> dbinom(0,3,0.5)
[1] 0.125
> dbinom(1,3,0.5)
[1] 0.375
> dbinom(2,3,0.5)
[1] 0.375
> dbinom(3,3,0.5)
[1] 0.125

我们想要看看正态分布的概率密度,比如我们想要看标准正态分布,0那点的概率密度是多少。(看上面的图,应该是0.4左右)

> dnorm(0)
[1] 0.3989423

p开头的分布函数就是我们之前提到过的累积分布函数。你可以想象成,在累计分布函数曲线上的x轴上,你设定一个值,那个值所对应y值(累积概率)是多少。还是前面两个例子。

我们想要看看,掷3次硬币,扔到小于等于1次正面的概率。

# 就是0次正面+1次正面
> dbinom(0,3,0.5) + dbinom(1,3,0.5)
[1] 0.5

# 直接用p函数算。
> pbinom(1,3,0.5)
[1] 0.5

我们想要看看从负无穷到0为止,总共的概率和。恰好就是一半的概率。

> pnorm(0)
[1] 0.5

q开头的分位数函数可以想象成,在累积分布函数的y轴上,你设定一个y值,那个y值(累积概率)所对应的x值是多少。

感觉分位数对于连续型变量比较常见。比如我们想要知道标准正态分布的97.5%分位点是多少,即曲线下面积是0.975的时候,所对应的x值。我们也可以说,这个x值比97.5%的值都大。

> qnorm(0.975)
[1] 1.959964

r开头的就是生成各种类型的随机数了。

上一篇 下一篇

猜你喜欢

热点阅读