鱼的深度学习

深度学习(二)从统计学角度看Loss公式

2020-04-20  本文已影响0人  升不上三段的大鱼

损失函数(Loss function)可以用来衡量模型在给定数据上的表现。

一、 似然函数

假设有一个训练集

所有观察到标签Y的概率为\prod_{m=1}^Mp(y_{m}|x_{m}),这个就是似然函数
在神经网络里这个概率也与权值有关,训练的目的是为了让观察到正确标签的概率最大,即
\mathop{\max}_{w}\left\{\prod_{m=1}^Mp(y_{m}|x_{m},w) \right\}
出于数学计算上的考虑,算最大值不如算最小值,所以我们的目标变成了\mathop{\min}_{w}\left\{\sum_{m=1}^M -ln(p(y_{m}|x_{m},w))\right\}

二、回归

回归分析(Regresion)是建立因变量Y与自变量间X关系的模型,假设现在有一个单变量的高斯模型
\begin{equation} p(y|x,w,\beta) = \mathcal{N} (\hat{y}(x,w),\frac{1}{\beta}) \\ = \frac{\sqrt{\beta}}{\sqrt{2\pi}}e^{\beta\frac{-(y_{m}-\hat{y}(x_{m},w))^2}{2}} \end{equation}
把这个概率公式代入上面的目标公式,可以得到
\begin{equation} L(w) = \sum_{m=1}^M -ln(\frac{\sqrt{\beta}}{\sqrt{2\pi}} e^{\beta\frac{-(y_{m}-\hat{y}(x_{m},w))^2}{2}}) \\ = ...\\ =\frac{M}{2}ln(2\pi) - \frac{M}{2}ln(\beta)+\frac{\beta}{2}\sum_{m=1}^{M}(y_{m}-\hat{y}(x_{m},w))^2 \end{equation}
这个式子里除去常数和系数,剩下的就是
\frac{1}{2}\sum_{m=1}^{M}(y_{m}-\hat{y}(x_{m},w))^2
平方也可以写成L2范数(L2 Norm), 这也就是L2 loss的样子:
\frac{1}{2}\sum_{m=1}^{M}\|y_{m}-\hat{y}(x_{m},w)\|^2_{2}

三、分类

分类问题就是给输入X归到最适合的类别Y里。假设神经网络的输出是输入归为某类的概率p。对于多分类的问题,假设满足多项分布\mathcal{C} (y|p)
= \begin{cases} \prod_{k=0}^{K}p_{k}^{y_{k}} \quad if y_{k} \in {0,1}\ \\ 0 \quad otherwise \end{cases}
带入到上面的目标公式里
\begin{equation} L(w) = \sum_{m=1}^M -ln(p(y_{m}|x_{m},w)) = - \sum_{m=1}^M ln\prod_{k=0}^{K}\hat{y_{k}}(x_{m},w)^{y_{k,m}}\\ = - \sum_{m=1}^M \sum_{k=0}^K ln(\hat{y_{k}}(x_{m},w)^{y_{k,m}}) = - \sum_{m=1}^M \sum_{k=0}^K y_{k,m}ln(\hat{y_{k,m}}) \end{equation}
得到了y\hat{y}的交叉熵,也就是交叉熵损失函数(cross-entopy loss)。

四、总结

五、附带

1、范数是什么
2、其他的loss公式以及数学背景

深度学习天坑系列,觉得还行就点个赞吧

上一篇下一篇

猜你喜欢

热点阅读