数理统计

二项分布和泊松分布

2020-07-14  本文已影响0人  壮志_凌云

一、超几何分布、二项分布和泊松分布的定义

设在 N 个产品中有 M 个不合格品,从这 N 个产品中不放回的等可能的随机抽取 n 个产品,随机变量 X 表示这 n 个产品中包含的不合格品的数量,则 X 的分布就符合超几何分布 H(n, M, N),且分布列为:

 P_X(k) = h(k, n, M, N) = \frac{ \left(\begin{array}{c} M \\ k \end{array}\right) \left(\begin{array}{c} N - M \\n -  k \end{array}\right) }{ \left(\begin{array}{c} N \\ n \end{array}\right) }, 0 \leq k \leq M

设随机事件 A 在一次试验中发生的概率为 p,随机变量 Y 表示在 n 次重复的独立试验中事件 A 发生的次数,则 Y 的分布就符合二项分布 B(n, p),且分布列为:

 P_Y(k) = b(k, n, p) = \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}, 0 \leq k \leq n

设随机事件 B 在一段时间内发生的平均次数为 \lambda,随机变量 Z 表示在一段时间内事件 B 发生的总次数,则 Z 的分布就符合泊松分布 P( \lambda ),且分布列为:

 P_Z(k) = p(k, \lambda) =  e^{- \lambda} \frac{ \lambda^k }{ k! }, k \geq 0

二、超几何分布、二项分布和泊松分布的关系

对于超几何分布随机变量 X,当固定 n 和 k, N \to \infty, \frac{M}{N} \to p 时,X 的分布极限是二项分布,即:

 \lim_{ N \to \infty } P_X(k) =  \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}

证明:

 P_X(k) = \frac{ \left(\begin{array}{c} M \\ k \end{array}\right) \left(\begin{array}{c} N - M \\n -  k \end{array}\right) }{ \left(\begin{array}{c} N \\ n \end{array}\right) }

 = \left(\begin{array}{c} n \\ k \end{array}\right)  \frac{  \Pi_{i=0}^{k-1} (M-i) * \Pi_{j=0}^{n-k-1} (N-M-j)  }{ \Pi_{l=0}^{n-1} (N - l) }

 = \left(\begin{array}{c} n \\ k \end{array}\right)  \frac{  \Pi_{i=0}^{k-1} (p - \frac{i}{N} ) * \Pi_{j=0}^{n-k-1} ( 1 - p - \frac{j}{N} )  }{ \Pi_{l=0}^{n-1} (1 - \frac{1}{N} ) }

 \implies \lim_{ N \to \infty } P_X(k) =  \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}

这就证明了超几何分布的极限是二项分布,同时也说明了,当不合格率固定并且产品数量足够大时,不放回抽样的概率分布非常接近放回抽样的概率分布。

对于二项分布随机变量 Y,当 n \to \infty, np \to \lambda时,Y 的分布极限是泊松分布,即:

 \lim_{ n \to \infty } P_Y(k) =  e^{- \lambda} \frac{ \lambda^k }{ k! }

证明:

设随机变量 Y 表示在一段时间内随机事件 B 发生的次数。现在将这段时间分割为 n 个足够多的时间段,并假设在每个时间段内,事件 B 发生的概率为 p,且最多只能发生 1 次,并假设 np \to \lambda,那么在这种假设下,变量 Y 符合二项分布,有:

 P_Y(k) = \left(\begin{array}{c}n \\ k\end{array}\right) p^k (1-p)^{n-k}

 = \frac{ \lambda^k }{ k! } \Pi_{i=0}^{k-1} (1 - \frac{1}{n}) (1 - \frac{\lambda}{n})^{n-k}p 替换为 \frac{\lambda}{n}

 \implies \lim_{ n \to \infty } P_Y(k) =  e^{- \lambda} \frac{ \lambda^k }{ k! }

这就证明了二项分布的极限是泊松分布,当 n 特别大,p特别小时,可以使用 p(k, np) 来近似计算 b(k, n, p)

三、二项分布可加性和极值

设随机变量 X_1 ~ B(n, p), X_2 ~ B(m, p) 且相互独立,那么随机变量 X_1 + X_2 ~ B(n + m, p)

证明:

从二项分布定义的角度考虑,对于随机事件 AX_1 表示在 n 次独立试验中事件 A 发生的次数,X_2 表示在 m 次独立试验中事件 A 发生的次数,所以随机变量 X_1 + X_2 就表示在 n + m 次试验中事件 A 发生的次数。

下面通过计算对命题进行证明:

 P_{X_1+X_2}(k) = \sum_{i=0}^k P_{X_1}(i) P_{X_2}(k - i)

 = \sum_{i=0}^k \left(\begin{array}{c}n \\ i \end{array}\right) p^i (1 - p)^{n-i} \left(\begin{array}{c}m \\ k-i\end{array}\right) p^{k-i} (1-p)^{m - k + i}

 =  p^k (1-p)^{n + m-k} \sum_{i=0}^k \left(\begin{array}{c}n \\ i \end{array}\right) \left(\begin{array}{c}m \\ k-i\end{array}\right)

 = \left(\begin{array}{c}n+m \\ k \end{array}\right) p^k (1-p)^{n + m-k}

这就证明了 X_1 + X_2 ~ B(n + m, p),结论可以推广到 n 个独立的二项分布随机变量的情况:若相互独立的随机变量 X_i ~ B(n_i, p), i = 1, 2, \dots, n,则 \sum_{i=1}^n X_i ~ B(\sum_{i=1}^n n_i, p)

设随机变量 X ~ B(n, p),则分布列 P_X(k) 在 [0, k^*] 区间内单调非减,在 [k^*, n] 区间内单调非增,其中 k^* = \lfloor (n+1) p \rfloor

证明:

设 k = 1, 2, \dots, n,则分布列的比值为:

 f(k) = \frac{ P_X(k) }{ P_X(k-1) } = \frac{ (n-k+1) p }{ k(1-p) }

可以看出,f(k) 是 k 的单调递减函数,当 f(k) = 1 时可得:

 k = (n+1)p \implies k^* = \lfloor (n+1) p \rfloor

这就证明了二项分布的分布列在 \lfloor (n+1) p \rfloor 处取的最大值,特别的:

当 p \le \frac{1}{n+1} 时,即事件发生的概率特别小时,P_X(k) 在 [0, n] 上都是单调非增的;

当 p \ge \frac{n}{n+1} 时,即事件发生的概率特别大时,P_X(k) 在 [0, n] 上都是单调非减的;

四、二项分布的分布函数

设随机变量 X ~ B(n, p),则分布函数 F_X(p) 是 p 的单调递减函数,且有:

 F_X(p) = f(p) = \frac{ n! }{ k! (n-k-1)! } \int_0^{1-p} t^{n-k-1}(1-t)^k dt, 0 \le k < n

证明:

 F_X(p) = \sum_{i = 0}^k \left(\begin{array}{c} n \\ i \end{array}\right) p^i (1-p)^{n-i}

 \implies \frac{d}{dp} F_X(p) = \sum_{i = 0}^k \left(\begin{array}{c} n \\ i \end{array}\right) (i p^{i - 1} (1-p)^{n-i} - (n-i) p^i (1-p)^{n-i-1})

 \implies \frac{d}{dp} F_X(p) = - (n-k) \left(\begin{array}{c} n \\ k \end{array}\right) p^k (1-p)^{n-k-1}

 \implies \frac{d}{dp} F_X(p) =  \frac{d}{dp} f(p)

 \implies F_X(p) = f(p) + CC 为常数

 F_X(0) = f(0) = 1 \implies C = 0

这就证明了 F_X(p) = f(p),且 F_X(p) 是 p 的单调递减函数。

五、泊松分布的可加性和极值

设随机变量 X_1 ~ P(\lambda_1), X_2 ~ P(\lambda_2),且相互独立,那么随机变量 X_1 + X_2 ~ P(\lambda_1 + \lambda_2)

证明:

从泊松分布的定义进行考虑,X_1 表示在一段时间内事件 A_1 发生的次数,X_2 表示在一段时间内事件 A_2 发生的次数,那么 X_1  + X_2就表示在一段时间内事件 A_1 + A_2 发生的次数,所以 X_1 + X_2 ~ P(\lambda_1 + \lambda_2)

下面通过计算进行证明:

 P_{X_1+X_2}(k) = \sum_{i=0}^k P_{X_1}(i) P_{X_2}(k - i)

 = \frac{ e^{-(\lambda_1 + \lambda_2)} }{ k! } \sum_{i=0}^k \left(\begin{array}{c} k \\ i \end{array}\right) \lambda_1^i \lambda_2^{k - i}

 = e^{-(\lambda_1 + \lambda_2)} \frac{ (\lambda_1 + \lambda_2)^k }{ k! }

这就证明了 X_1 + X_2 ~ P(\lambda_1 + \lambda_2),结论可以推广到 n 个独立的泊松分布随机变量的情况:若相互独立的随机变量 X_i ~ P(\lambda_i), i = 1,2,\dots,n,则 \sum_{i=1}^n X_i ~ P(\sum_{i=1}^n \lambda_i)

设随机变量 X ~ P(\lambda),则分布列 P_X(k) 在 [0, k^*] 区间内单调非减,在 [k^*, + \infty] 区间内单调非增,其中 k^* = \lfloor \lambda \rfloor

证明:

设 k = 1, 2, \dots,则分布列的比值为:

 f(k) = \frac{ P_X(k) }{ P_X(k-1) } = \frac{ \lambda }{ k }

可以看出,f(k) 是 k 的单调递减函数,当 f(k) = 1 时可得:

 k = \lambda \implies k^* = \lfloor \lambda \rfloor

这就证明了泊松分布的分布列在 k^* 处取的最大值,特别的:

当 \lambda \le 1 时,即单位时间内事件发生的平均次数特别小时,P_X(k) 在 [0, +\infty] 上都是单调非增的;

当 \lambda > 1 时,P_X(k) 先增大后减小,并在 k^* 处达到最大值;

六、泊松分布的分布函数

设随机变量 X ~ P(\lambda),则分布函数 F_X(\lambda)\lambda 的单调递减函数,且有:

 F_X(\lambda) = f(\lambda) = \frac{1}{k!} \int_\lambda^{\infty} t^k e^{-t} dt, k \ge 0

证明:

 F_X(\lambda) = \sum_{i=0}^k e^{-\lambda} \frac{ \lambda^i }{ i! }

 \implies \frac{d}{d\lambda} F_X(\lambda) = \sum_{i=0}^k e^{-\lambda} ( \frac{ i \lambda^{i-1} }{ i! } - \frac{\lambda^i}{i!} )

 \implies \frac{d}{d\lambda} F_X(\lambda) = - e^{-\lambda} \frac{\lambda^k}{k!} = \frac{d}{d\lambda} f(\lambda)

 \implies F_X(\lambda) = f(\lambda) + CC 为常数

 F_X(0) = f(0) = 1 \implies C=0

这就证明了 F_X(\lambda) = f(\lambda),且 F_X(\lambda) 是 \lambda 的单调递减函数。

上一篇 下一篇

猜你喜欢

热点阅读