随机变量及其分布的Python实现

2019-07-18 本文已影响0人琪音

随机变量

随机变量的定义域是基本事件的全体，本质是一种函数(映射关系)。

"取值随机会而定" "是实验结果的函数"

随机事件 → 静态(常量)

随机变量 → 动态(变量)

离散型

常见的离散型随机变量：两点分布、二项分布、泊松分布

（分布律）设 $X$ 为离散型随机变量，

$P(X=a_i) = P_i , i=1,2,3...$

$X$	$a_1$	$a_2$	...	$a_n$	...
$P$	$p_1$	$p_2$	...	$p_n$	...

$p_i \geqslant 0,i=1,2,…$ & $\sum p_i =1$

离散型-04.png

伯努利分布（Bernoulli Distribution）

也叫做两点分布、零一分布，即事件的结果只有两个值，且事件之间相互独立，适合于实验结果只有两种可能的单词试验，例如抛硬币，质检等。

$P(A) = p, p(\bar A) = q=1-p$ $(p\geqslant0,q\geqslant0,p+q=1)$

记做 $X \sim B e r n o u l l i(p)$ ，或 $X \sim B(1, p)$ ，读作 $X$ 服从参数为P的伯努利分布

$E(X)=p,Var(X)=pq$

设抛一枚不均匀的硬币，其正面朝上的概率为0.6，其概率分布图：

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

def bernoulli(p = 0.0):
    
    ber_dist = stats.bernoulli(p)
    x = [0,1]
    pmf = [ber_dist.pmf(x[0]),ber_dist.pmf(x[1])]
    x_name = ['0','1']
    plt.xticks(x,x_name)
    
    plt.ylabel('Probability')
    plt.title('PMF of bernoulli distribution')
    plt.bar(x,pmf)
    plt.show()


bernoulli(p=0.4)

伯努利分布.png

二项分布（Binomial Distribution）

重复n次的伯努利试验，在每次实验中只有两种可能的结果，且事件之间相互独立。

$p(X=k)= C_{n}^{k} p^{k} q^{n-k}$ $(k=0,1,2...)$

记做 $X \sim \operatorname{Binomial}(n, p)$ ，或 $X \sim B(n, p)$ ，读作 $X$ 服从参数为n和p的二项分布

${E}({X})=\frac {1} {p}$ ， $\operatorname{Var}({X})=\frac {q} {p^2}$

设抛一枚不均匀的硬币20次，其中正面朝上的概率为0.6，其概率分布图：

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

def binom(n,p):
    binom_dis = stats.binom(n,p)
    x = np.arange(binom_dis.ppf(0.01),binom_dis.ppf(0.99))
    print(x)
    fig,ax = plt.subplots(1,1)
    ax.plot(x, binom_dis.pmf(x), 'bo',ms=5, label='binom pmf')
    ax.vlines(x, 0, binom_dis.pmf(x), colors='b',lw=5, alpha=0.5)
    ax.legend(loc='best', frameon=False)
    plt.ylabel('Probability')
    plt.title('PMF of binomial distribution(n={}, p={})'.format(n, p))
    plt.show()

binom(20,0.6)

二项分布.png

泊松分布（Poisson Distribution）

描述单位时间内随机事件发生的次数，满足一下条件：

在任意两个相等长度的区间上，事件发生的概率相等
事件在某一区间上是否发生与事件在其他区间上是否发生所独立

$P(X=k)=\frac{e^{-\lambda} \lambda^{k}}{k !}$ $(\lambda>0,k=0,1,2...)$

记做 $X \sim \text {Poisson}(\lambda)$ ，或 $X \sim P(\lambda)$ ，读作 $X$ 服从参数为 $\lambda$ 的泊松分布

${E(X)=\lambda}$ ， ${{Var}(X)=\lambda}$

设某路口发生事故的比率是每天2次，那么此处一天内发生k次事故的概率是多少？

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

def poisson(mu):
    poisson_dis=stats.poisson(mu)
    x = np.arange(poisson_dis.ppf(0.001),poisson_dis.ppf(0.999))
    fig,ax = plt.subplots(1,1)
    ax.plot(x,poisson_dis.pmf(x),'bo',ms=5,label='poisson pmf')
    ax.vlines(x,0,poisson_dis.pmf(x),colors='b',lw=5,alpha=0.5)
    ax.legend(loc='best', frameon=False)
    plt.ylabel('Probability')
    plt.title('PMF of poisson distribution(mu={})'.format(mu))
    plt.show()
    
poisson(mu=2)

泊松分布.png

连续型

常见的连续型随机变量：均匀分布、指数分布、正态分布

非离散型是一个范围，设随机变量 $X$ 的分布函数为 $F(x)$ ，如果存在非负函数 $f(x)$ ，使 $F(x)=\int_{-\infty}^{x} f(t) d t$ ，则称 $X$ 为连续型随机变量， $f(x)$ 称为 $X$ 的概率密度函数。

性质：

$f(x) \geqslant 0 \quad-\infty<x<+\infty$
$\int_{-\infty}^{+\infty} f(x) d x=1$
对于 $x_1 \leqslant x_2$ ， $p\left\{x_{1}<{x} \leqslant x_{2}\right\} =\int_{x_{1}}^{x_{2}} f(x) d x =F\left(x_{2}\right)-F\left(x_{1}\right)$
若 $f(x)$ 在 $x$ 点是连续的，则 $F^{\prime}(x)=f(x)$
改变 $f(x)$ 在个别点出的函数值不影响 $F(x)$
对于 $x$ ， $p\{X=x\}=\int_{x}^{x} f(t) d t=0$

提到概率分布时，离散型→分布律，连续型→概率密度

均匀分布 (Uniform Distribution)

连续型随机变量 $X$ 具有如下的概率密度函数，则称 $X$ 服从[a,b]上的均匀分布

$f_{X}(x)=\frac{1}{b-a} \quad a<x<b$

记做 $X \sim U(a, b)$

$E(X)=\frac{a+b}{2}$ , $Var(X)=\frac{(b-a)^{2}}{12}$

指数分布 (Exponential Distribution)

相比于泊松分布表示单位时间内随机事件的平均发生次数，指数分布可用来表示独立事件发生的时间间隔。

$f_{X}(x)=\lambda e^{-\lambda x} \quad x>0$

记做 $X \sim E(\lambda)$

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

def exponential(loc, scale):
    
    exp_dis = stats.expon(loc,scale)
    x = np.linspace(exp_dis.ppf(0.0001), exp_dis.ppf(0.9999), 100)
    
    pdf = exp_dis.pdf(x)
    
    cdf = exp_dis.cdf(x)
    
    plt.figure(1)
    plt.subplot(211)
    plt.plot(x, pdf, 'b-',  label='pdf')
    plt.ylabel('Probability')
    plt.title(r'PDF/CDF of exponential distribution')  
    plt.legend(loc='best', frameon=False)
   
    plt.subplot(212)
    plt.plot(x, cdf, 'r-', label='cdf')
    plt.ylabel('Probability')
    plt.legend(loc='best', frameon=False)

    plt.show()


exponential(loc=0, scale=2)

指数分布.png

正态分布 (Normal Distribution)

最重要的来啦，之前提到的中心极限定理，当样本量足够大时，样本均值的分布会趋于正态分布。

$f_{X}(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left\{-\frac{(x-\mu)^{2}}{2 \sigma^{2}}\right\}$

记做 $X \sim N\left(\mu, \sigma^{2}\right)$

如果公式中的 $\mu=0, \sigma=1$ ，就叫做标准正态分布！

import numpy as np
import matplotlib.pyplot as plt
from scipy import stats

def normal_dis(mu=0, sigma=1):

    norm_dis = stats.norm(mu, sigma) 
    # 在区间[-15, 15]上均匀的取100个点
    x = np.linspace(-15, 15, 100)  

    # 计算该分布在x中个点的概率密度分布函数值(PDF)
    pdf = norm_dis.pdf(x)

    # 计算该分布在x中个点的累计分布函数值(CDF)
    cdf = norm_dis.cdf(x)

    
    plt.figure(1)
    plt.subplot(211)
    plt.plot(x, pdf, 'b-',  label='pdf')
    plt.ylabel('Probability')
    plt.title(r'PDF/CDF of normal distribution')
    plt.text(-5.0, .12, r'$\mu={},\ \sigma={}$'.format(mu, sigma))  
    plt.legend(loc='best', frameon=False)

    plt.subplot(212)
    plt.plot(x, cdf, 'r-', label='cdf')
    plt.ylabel('Probability')
    plt.legend(loc='best', frameon=False)

    plt.show()

normal_dis(mu=5, sigma=3)

正态分布.png

随机变量及其分布的知识点简单复习到这里~

参考来源：
网易云课堂《概率论与数理统计》
https://docs.scipy.org/doc/scipy/reference/stats.html
https://www.cnblogs.com/Belter/p/7545343.html

随机变量及其分布的Python实现

随机变量

离散型

伯努利分布（Bernoulli Distribution）

二项分布（Binomial Distribution）

泊松分布（Poisson Distribution）

连续型

均匀分布 (Uniform Distribution)

指数分布 (Exponential Distribution)

正态分布 (Normal Distribution)

猜你喜欢

热点阅读

随机变量及其分布的Python实现

随机变量

离散型

伯努利分布（Bernoulli Distribution）

二项分布 （Binomial Distribution）

泊松分布（Poisson Distribution）

连续型

均匀分布 (Uniform Distribution)

指数分布 (Exponential Distribution)

正态分布 (Normal Distribution)

猜你喜欢

热点阅读

二项分布（Binomial Distribution）