机器学习与数据分析

截断正态分布

2018-12-17  本文已影响0人  殉道者之花火

  截断正态分布(Truncated_normal_distribution)是在正太分布中界定随机变量进而从正态分布的分布函数中导出概率分布,在计量经济学中具有广泛的应用。

不同参数下的正态分布概率密度函数
正态分布的累计分布函数

  若X\sim N(\mu,\delta^2),则当X \in (a,b),-\infty \leq a < b \leq \infty时,X的概率密度函数(PDF)为:
f(x;\mu,\delta,a,b)=\frac{\frac{1}{\delta}\phi(\frac{x-\mu}{\delta})}{\Phi(\frac{b-\mu}{\delta})-\Phi(\frac{a-\mu}{\delta})}
其中,\phi(\epsilon)=\frac{1}{\sqrt{2\pi}}e^{-\frac{1}{2}\epsilon^2}为标准正态分布, \Phi(x)为标准正态分布的累积分布函数(CDF):
\Phi(x)=\frac{1}{2}(1+erf(\frac{x}{\sqrt2}))=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{-\frac{-t^2}{2}}dt
erf(x)为高斯误差函数是一个非初等函数,定义如下:
erf(x) = \frac{1}{\sqrt{\pi}}\int_{-x}^{x}e^{-t^2}dt=\frac{2}{\sqrt{\pi}}\int_{0}^{x}e^{-t^2} dt
在这里做一个简短的证明:

从累计分布的几何意义来看:
对于x \in (a,b),\Phi(x)在区间(a,b)的累计分布为随机变量X落在该区间的概率,其概率值为概率密度函数在该区间的定积分,也就是概率密度曲线在该区间所围图形的面积。因为\Phi(x)=\Phi(0)+\int_{0}^{x}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt而标准正态分布的对称轴\mu=0,故\Phi(0)=\frac{1}{2},且erf(\frac{x}{\sqrt{2}})=\frac{2}{\sqrt{\pi}}\int_{0}^{\mu}e^{-({\frac{\mu}{\sqrt{2}}})^2} d\frac{\mu}{\sqrt 2}=2\int_{0}^{x}\frac{1}{\sqrt{2\pi}}e^{-\frac{t^2}{2}}dt,得证。

利用累计正态分布的性质来看:
对于正态分布的累计分布函数有\Phi(-x)=1-\Phi(x)成立,则\Phi(0)=1-\Phi(0),\Phi(0)=\frac{1}{2},借鉴上一个证明的后半部分即可得证。

直接由标准正态分布的累计分布函数进行推导:
\Phi(x)=\int_{-\infty}^{x}\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt=[\int_{-\infty}^{0}+\int_{0}^{x}]\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt
对于第二个积分\int_{0}^{x}\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt=\frac{1}{2}erf(x)在第一种方法中已证明,接下里着重证明第一个积分I_{-\infty}=\int_{-\infty}^{0}\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt=\frac{1}{2},由于被积函数是一个偶函数,直接证明I=\int_{-\infty}^{+\infty}\frac{1}{\sqrt{2\pi}}e^{\frac{-t^2}{2}}dt=1即可,对于该无穷积分,考虑其收敛性,可以构造为二重积分进行求解:
I^2=\int_{-\infty}^{+\infty}\frac{1}{\sqrt{2\pi}}e^{\frac{-u^2}{2}}du\int_{-\infty}^{+\infty}\frac{1}{\sqrt{2\pi}}e^{\frac{-v^2}{2}}dv=\iint_{\Omega}\frac{1}{2\pi}e^{\frac{-(u^2+v^2)}{2}}d\delta
做极坐标变换\rho(r,\theta),即得:
I^2=\iint_{\Omega}\frac{1}{2\pi}e^{\frac{-(u^2+v^2)}{2}}d\delta=\iint_{\chi}\frac{1}{2\pi}e^{\frac{-r^2}{2}}|J_{\rho}|d\rho
其中,极坐标变换的Jacobi行列式:
J_{\rho}=\frac{D(x,y)}{D(r,\theta)}=r
于是:
I^2=\iint_{\chi}\frac{1}{2\pi}e^{\frac{-(r^2)}{2}}|J_{\rho}|d\rho=\iint_{\chi}\frac{1}{2\pi}e^{\frac{-(r^2)}{2}}|r|d\rho=\int_{-\infty}^{+\infty}\int_{0}^{2\pi}\frac{1}{2\pi}e^{\frac{-r^2}{2}}|r|drd\theta
简化得:
I^2=\int_{0}^{2\pi}\frac{1}{\pi}d\theta \int_{0}^{+\infty}re^{\frac{-r^2}{2}}dr=-e^{\frac{-r^2}{2}} |_{0}^{+\infty}=0-(-1)=1
得证.

由累积分步函数可以很容易得到:
\lim_{b \to +\infty}\Phi(\frac{b-u}{\delta})=1
\lim_{a \to -\infty}\Phi(\frac{a-u}{\delta})=0

上一篇 下一篇

猜你喜欢

热点阅读