Day4 第一章 统计学习及监督学习概论(习题与总结)

2023-02-15  本文已影响0人  Bocchi

1 几点收获与思考

2 习题

习题1.1 说明伯努利模型的极大似然估计以及贝叶斯估计中的统计学习方法三要素。伯努利模型是定义在取值为 0 与 1 的随机变量上的概率分布。假设观测到伯努利模型 n 次独立的数据生成结果,其中 k 次的结果为 1,这时可以使用极大似然估计或贝叶斯估计来估计结果为 1 的概率。

解:
(1)伯努利模型
  伯努利模型是定义在取值为 0 与 1 的随机变量上的概率分布。对于随机变量 X 有,参数为 p(0<p<1),它分别以概率 p1-p 取 1 和 0 为值。随机变量 X 的概率分布函数即模型可以写为P(X=x|p)=\left\{\begin{align} & p^x(1-p)^{1-x},\ x=0,1;\\ & 0 \qquad\qquad\quad,\ \text{else}. \\ \end{align} \right.  伯努利模型的假设空间为\mathcal{F}=\{P|P(X=x|p), p\in [0,1]\}(2)伯努利模型的极大似然估计中的统计学习方法三要素
  模型:伯努利模型
  策略:经验风险最小化。当模型是条件概率分布、损失函数是对数损失函数时的经验风险最小化就等价于极大似然估计。
  算法:极大似然估计:\hat{p}=\arg\max\limits_p L(p|X)  其中 L(p|X) 为样本的似然函数
(3)伯努利模型的贝叶斯估计中的统计学习方法三要素
  模型:伯努利模型
  策略:结构风险最小化。当模型是条件概率分布、损失函数是对数损失函数、模型复杂度由模型的先验概率表示时的结构风险最小化等价于贝叶斯估计中的最大后验概率估计。
  算法:最大后验概率估计:\hat{p}=\arg\max\limits_p \hat P(p|X)  其中 \hat P(p|X)后验概率分布

习题1.2 通过经验风险最小化推导极大似然估计。证明模型是条件概率分布,当损失函数是对数损失函数时,经验风险最小化等价于极大似然估计。

(参考了给出的解答思路)

解答思路

解:
  已知模型是条件概率分布,损失函数为对数损失函数。设条件概率分布为 P_\theta(Y|X)(离散为概率分布列 p(x;\theta),连续为概率密度函数f(x;\theta)),样本集 D=\{(x_1,y_1),(x_2,y_2),\dots,(x_N,y_N)\}N 为样本数,对数损失函数为:L(Y,P(Y|X))=-\log P(Y|X)  经验风险最小化求解最优模型就是求解最优化问题:\min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i))其中,\mathcal{F} 是假设空间。
  结合上述两个式子,可以得到\begin{align} \min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i)) = & \min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} \big(-\log P(y_i|x_i)\big) \\ = & \ \frac{1}{N} \max_\limits{f\in\mathcal{F}} \big(\log \prod\limits_{i=1}^{N} P(y_i|x_i)\big)\\ \end{align}  根据似然函数的定义有 L(\theta)=L(x_1,x_2,\dots ,x_N;\theta)=\prod\limits_{i=1}^{N} P_{\theta} (y_i|x_i),再结合最大似然估计的一般过程,不难发现\arg\min_\limits{f\in\mathcal{F}} \frac{1}{N}\sum\limits_{i=1}^{N} L(y_i,P(y_i|x_i)) = \frac{1}{N} \arg \max_\limits{f\in\mathcal{F}} \big(\log L(\theta)\big)即经验风险最小化等价于极大似然估计,Q.E.D

上一篇下一篇

猜你喜欢

热点阅读