1 经验贝叶斯和James-Stein估计法

2021-12-15  本文已影响0人  老姚记事本

最近接触Efron大神的经验贝叶斯相关内容,大受震撼!准备把Large-Scale Inference一书认真学习一遍,特此记录。

1.1 贝叶斯规则和多元正态分布的估计

1.1.1 贝叶斯框架

正态分布场景,在贝叶斯框架下,观测值z可以来自参数\mu的正态分布,而\mu又可以服从某种分布,即:
\mu \sim g(.) \ and\ z|\mu \sim f_\mu(z)
根据贝叶斯规则:
g(\mu|z)=g(\mu)f_\mu(z)/f(z)
其中f(z)z的边缘概率分布:
f(z) = \int g(\mu)f(z)d\mu

1.1.2 先验为正态分布时

此节关注先验为正态分布场景。
为了描述简单,且不失一般性。如果g(.)\mathcal N(0,AI),且z|\mu \sim \mathcal N(\mu,I),则:
\mu|z = \mathcal N_N(Bz,BI)\qquad\[B=A/(A+1)\]

简书latex又显示错误,无奈贴图

1.1.3 评判估计的好坏

现实中我们只能通过观测值z来估计\mu,定义为t(z),则其估计值得风险函数可以是:
R(\mu)=E_\mu\{\| t(z)-\mu)\|^2\}

1.1.4 最大似然与贝叶斯孰优孰劣?

基于以上前提,由于I是单位矩阵:

证明:
z_i - \mu_i服从 N(0, 1),则\sum( z-\mu)^2\服从自由度为N的卡方分布,根据卡方分布性质:
E(\mathcal{X}^2(N)) = N

在考虑\mu的先验分布,此时全局风险为R_A^{Bayes} =N *A/ (A+1)
由此可见:
R^{MLE}(\mu) - R_A^{Bayes}=N / (A+1)
因此在先验正确的情况下,贝叶斯估计总是好于最大似然估计。

1.2 经验贝叶斯估计

如果1.1中的模型是正确的,但是不知道其中的A,可以采用经验贝叶斯方法。
此时z \sim \mathcal N_N(0, (A+1) I),如S=\|z\|,则S\sim(A+1)\mathcal X^2_N,根据逆卡方分布性质可得到:
E\{\frac{N-2}{S}\} = 1/(A+1)
(N-2)/S作为1/(A+1)的估计值带入\hat\mu^{Bayes},就得到了神奇的James-Stein估计!
\hat\mu^{JS} = (1 - \frac{N-2}{S})z
可以得出James-Stein估计的风险值:R_A^{JS} =N *A/ (A+1) + 1/(A+1)

定理:当 N ≥ 3 时,James-Stein 估计量的均方误差总是小于极大似然估计量的均方误差,
即,
E_\mu\|\hat\mu^{js} - \mu\| < E_\mu\|\hat\mu^{MLE} - \mu\|
(此定理James和Stein是通过频率派方法证明的,也就是说先验可以为任意)

更一般的情况,如果\mu_i \sim \mathcal N(M,A I), z_i|\mu_i\sim \mathcal N(\mu_i, \sigma^2_0),且互相独立,则B = \frac{A}{A + \sigma^2_0},则James-Stein经验贝叶斯估计为:
\hat\mu^{JS}_i =\bar z + (1 - \frac{(N-3)\sigma^2_0}{S})(z_i - \bar z)

latex错误补图

N ≥ 4时,定理仍然成立。

书里有一个采用棒球手真实数据的例子,James-Stein估计法的风险仅仅是MLE估计法的0.28。

这里神奇的是,我们用的是贝叶斯方法,但是并没有对先验的参数做任何主观的假设。

1.3 估计个体

使用James-Stein估计法有可能遇到下面这种问题,整体来看MSE好于MLE法,但是部分个体却差很多(第10行)。



这是因为10代表的球手是一个非常优秀的运动员,一个离群值,他不应该向其他人“收缩”。

对这种情况可以进行一些修正(limited translation estimator),使整体MSE没有提升太多的情况下,降低离群值个体的MSE。

1.4 从其它个体信息中学习


上图代表了James-Stein的估计流程,其它个体估计了先验的参数,将估计的先验分布与z_1结合,得到了\mu_1的估计值。

还可以结合回归,将先验变得更科学,比如肾脏健康与年龄是相关的,评估一个人肾脏可以用以下模型:


\mu_i \sim \mathcal N(M_0+M_1 * age_i, A) \ and\ z_i \sim \mathcal N(mu_i, \sigma_0^2)

则james-stein估计会变为:
\hat\mu^{JS}_i =\hat\mu^{reg}_i + (1 - \frac{(N-4)\sigma^2_0}{S})(z_i - \hat\mu^{reg}_i)

1.5 经验贝叶斯置信区间

由于\mu_0|z_0 \sim \mathcal N(Bz_0 , B),可以得到对应的置信区间:
\mu_0 \in Bz_0\pm 1.96*\sqrt B
由于B是不知道的,但是知道其无偏估计\hat B = 1 - \frac{N-2}{S},再结合\hat B的波动性:
\mu_0|z_0 \sim \mathcal N(\hat Bz_0 , \hat B +\frac{2}{N-2}[z_0(1 - \hat B)]^2)
不难得到对应的置信区间。

上一篇下一篇

猜你喜欢

热点阅读