00003. 参数化多项式分布时，为什么使用k-1个参数？

2019-03-23 本文已影响0人 deBroglie

多项式分布

我们知道，对于有 $\small{k}$ 个不同可能目标变量取值的学习问题，使用多项式分布(multinominal distribution)来建模。但是为什么参数化多项式分布时，为什么不选择 $\small{k}$ 个参数，而是 $\small{k-1}$ 个参数呢？

正则化公理

我们所选择的 $\small{k-1}$ 参数的含义是对应各自输出值的概率大小。这样一来，最后一个输出值的概率可以由正则性公理得到 $\small{\phi_{i}=p(y=i;\vec{\phi}), i=1,\cdots,k-1}$ $\small{\phi_{k}=p(y=k;\vec{\phi})=1-\sum_{i=1}^{k-1}\phi_{i}}$ 因此只有 $\small{k-1}$ 个参数是相互独立的。

延伸

一个类似但不同的问题是，为什么总体方差的无偏估计的系数是 $\small{\frac{1}{n-1}}$ 而非 $\small{\frac{1}{n}}$ ? 知乎有对这个问题专门的讨论。

00003. 参数化多项式分布时，为什么使用k-1个参数？

多项式分布

正则化公理

延伸

猜你喜欢

热点阅读