PH525x series - Bayesian Statist

2019-12-06  本文已影响0人  3between7

贝叶斯理论(Bayes Theorem

一般地,在一个事件B已经发生的情况下,事件A发生的条件概率定义为(贝叶斯公式):
P(A|B) = \frac{P(A \bigcap B)}{P(B)} =\frac{P(B | A)P(A)}{P(B)}, P(B) \neq 0

其实很好理解,将A和B想象成相交的两个圆,那么求在B已经发生的情况下,A又发生的概率其实就是两圆的交集再除以B那个圆。

Bayes in practice

José Iglesias是一名专业的棒球运动员,在2013年5月的比赛中,他一共击球20次,平均击中率(AVG)为0.45,相比其他选手,他的表现十分优秀。那么为了说明层次模型的强大,我们接下来会使用两种学派的方法去预测他到赛季末(届时他的击球数便会超过500)的表现(平均击中率)。

如果是frequentist统计学派,最可能是通过计算击中率的置信区间来预测其接下来的表现。击球的结果其实就是二项分布,AVG也就是击球的成功率其实就是p值,如果成功率真的是0.45的话,那么标准误便是:

\sqrt \frac{0.45(1-0.45)}{20} = 0.111
置信区间便是:0.45-0.2220.45+0.222

这个结果有两个问题:首先,置信区间太大了,所以并没啥卵用;其次,它是以0.45为中心的一个区间范围,这就意味着这位运动员接下来可能会打破Ted Wiillian在1941年保持的记录(整个赛季的AVG为0.40)。

如果你是棒球迷,就很有可能认为第二条分析是错的,原因在于你其实在做判断时已经暗戳戳的把一些你常年累月看棒球赛事积累下来的信息运用到了你的判断中,而Bayesian统计学派便是这么做的。

这一派的人在做统计时首先会探索下先验概率的分布情况,那什么是先验概率呢?

简单来讲,先验概率(prior probability)是指根据以往经验和分析得到的概率。

层次模型便可用来计算先验分布,先来看下层次模型的具体内容:

θ ∼ N(\mu,τ^2) Y | θ ∼ N(θ,σ^2)

其中,第一行描述的是选择运动员的随机性;第二行描述的是被选中的这位运动员具体表现的随机性。注意这两个水平其实是(这也就是为什么会把这种模型叫做层次模型):(1)运动员与运动员之间的差异性,即先验分布;(2)击球时因为幸运因素导致的变异性,即取样分布。

在本例中可以用过去3个赛季中,那些击球次数超过500次的球员平均击中率去探索先验分布:

1575858486143.jpg

首先告诉大家一些具体数据:2010至2012年间,球员们的平均AVG为0.275,标准差为0.027,然后将他们带入到层次模型当中:

θ ∼ N(0.275,0.027^2) Y | θ ∼ N(θ,0.110^2)

在本例中,θ的意义是José Iglesias的真实实力,也就是真实的平均击中率,这种给定Yθ的后验分布函数如下:

\begin{align*} f_{ \theta \mid Y} (\theta\mid Y) &= \frac{f_{Y\mid \theta}(Y\mid \theta) f_{\theta}(\theta) }{f_Y(Y)}\\ &= \frac{f_{Y\mid \theta}(Y\mid \theta) f_{\theta}(\theta)} {\int_{\theta}f_{Y\mid \theta}(Y\mid \theta)f_{\theta}(\theta)} \end{align*} %]]

后验概率是由果求因,也就是在知道结果的情况下求原因的概率,在本例中的意思就是,我们知道这位球员的表现很好,AVG甚至高达0.45,那原因究竟是啥呢?是他的真实实力就是如此,还是其中有幸运的因素在?这些疑问通过这种后验分布就可以探之一二

另外,由于在本例中\theta的后验分布是正态的(从上面画的图可以看出),所以\theta | y平均数\mbox{E}等于:

\begin{align} \mbox{E}(\theta\mid y) &= B \mu + (1-B) Y \\ &= \mu + (1-B)(Y-\mu) \\ B &= \frac{\sigma^2}{\sigma^2+{\tau}^2} \end{align}

从公式中可以看出,\mbox{E}(\theta\mid y)实际上是群体均数与观察值Y的加权平均数,权重取决于群体\tau和观察值的标准差。带入具体数值:

\begin{align*} \mbox{E}(\theta \mid Y=.450) &= B \times .275 + (1 - B) \times .450 \\ &= .275 + (1 - B)(.450 - .260) \\ B &=\frac{.110^2}{.110^2 + .027^2} = 0.943\\ \mbox{E}(\theta \mid Y=.450) &\approx .285 \end{align*}

\theta | y的方差var{( \theta | y)}等于:

\mbox{var}(\theta\mid y) = \frac{1}{1/\sigma^2+1/\tau^2} = \frac{1}{1/.110^2 + 1/.027^2} = 0.026

因此通过这种方法计算得到的可信区间就变成了:.285 ± 0.052,下图是José Iglesias在接下来的几个月当中的表现:

1575871430652.jpg

可以看出,尽管两个学派预测的区间都包括了最终的击中平均数,但贝叶斯可信区间更加精细,特别是,它预测他在本赛季剩下的时间里不会表现得那么好。

上一篇下一篇

猜你喜欢

热点阅读