参数值的信息量

2020-03-15 本文已影响0人十酒三

令 $x$ 代表随机变量 $X$ 的观测值，香农信息论告诉我们：该观测值的信息量为 $-\log P（X=x）$ 。然而，在统计学中概率分布往往是未知的，特别地，当分布含未知参数 $\theta$ 时，不同的参数值 $\theta_{0}$ 就对应着 $x$ 有不同的条件概率 $P（X=x| \theta =\theta_{0} ）$ ，从而意味着不同的信息量。我们很自然地想到，可以给参数值设定一个具体信息量来反映这种差别。

但是，上述方法不适用于处理参数值 $\theta$ ：首先，它不是可观测量，即便我们用贝叶斯观点赋予它一个分布，如何避免主观偏倚仍是问题。其次，使用正规模型时，可计算的点估计量和参数值服从的分布往往是大相径庭的。如果使用参数值的分布来定义信息量，那将与实际可行的统计推断流程背道而驰。区别参数值和对其的点估计，是搞清问题的关键。

在推定 $\theta$ 值前，我们用先验分布 $Pr（\theta ）$ 表示其不确定状况，由贝叶斯公式可得到 $P（X=x）=E_{ Pr(\theta)} P（X=x| \theta ）$ 。从而得出“推定前”信息量 $I_{0} =-\log P（X=x）$ 。

推定过程实际上就是用基于观测值的点估计 $m(x)$ 去代换上文中的 $\theta_{0}$ ，从而得出条件概率（非贝叶斯派称其为似然） $P（X=x| \theta =m（x））$ 。当似然较大时它给出更小的信息量。然而，新的概率分布需要更换新的编码来适应，所以此时除了记录观测值外，还需要额外信息来记录点估计 $m（x）$ ，它的值指明了更换到哪一个条件分布。总之：

在推定 $\theta$ 值后，我们记录两部分信息：前者是点估计 $m(x)$ ，其信息量为 $-\log P（m(X)=m(x)）$ 。式中概率同样可用贝叶斯公式求得： $P（m(X)=m(x)）=E_{ Pr(\theta)} P（m(X)=m(x)| \theta ）$ 。后者是观测值的新编码，其长度为 $-\log P（X=x| \theta =m（x））$ 。两者的总和即是“推定后”信息量 $I$ 。

推定前后信息量之差: $I-I_{0} =\log \frac{P（X=x）}{P（m(X)=m(x))P（X=x| \theta =m（x））}$

可定义为参数值的信息量。我们可以利用其数值作为选取点估计方法 $m( )$ 和评价先验 $Pr（\theta ）$ 的依据。

通常的统计决策论是用风险最小化（有时表述为效用最大化）来确定估计方法 $m( )$ 的。在 $x，\theta$ 取值数均有限的特殊情形， $m( )$ 可表述为将 $X$ 值域划分为多个独立子集的问题，每一独立子集对应一个不同的估计值，适当的划分可由下列的优化问题解出：

$m()=arg min\sum P（x，\theta ）L（m（x）,\theta ）$

式中 $L（m（x）,\theta ）$ 是相关的损失函数，损失函数本身也要满足一定的要求，它们是上述优化问题未列出的约束条件。一般情况下，该问题是NP困难的，从而求出风险最小的 $m(x)$ 消耗的计算时间，可能会随取值数呈指数增长（根据强指数时间假设SETH）。

然而，从另一个角度来考虑：动用如此庞大的计算资源，是与参数值本身的信息量不相配的。我们提议这样的原则：估计量的计算复杂度应该与该估计量求得的信息量相适配（例如：相差不超过多项式函数）。

参数值的信息量

猜你喜欢

热点阅读