常见损失函数

2020-08-23 本文已影响0人 nlpming

机器学习算法的关键一环是模型评估，而损失函数定义了模型的评估指标；可以说，没有损失函数就无法求解模型参数。不同的损失函数优化难度不同，最终得到的模型参数也不同，针对具体的问题需要选取合适的损失函数。

常见损失函数曲线.png

0-1损失是指预测值和目标值不相等为1，否则为0；
$L(y, f(x)) = \begin{cases} 1, & y \neq f(x) \\ 0, & y = f(x) \end{cases}$

特点：
（1）0-1损失能够直观地刻画分类的错误率，但是由于其非凸、非光滑的特点，使得算法很难直接对该函数进行优化；
（2）感知机 就是用的这种损失函数；

Hinge损失函数标准形式如下：
$L(y, f(x)) = max(0, 1 - yf(x))$

特点：
（1）hinge损失函数表示如果被分类正确，损失函数为0，否则损失为 $1- yf(x)$ 。支持向量机(SVM) 使用的就是hinge loss；
（2）hinge 损失函数在 $yf(x) = 1$ 处不可导，因此不能用梯度下降法进行优化；

交叉熵损失函数标准形式：
$L(y, f(x)) = - \left[ ylogf(x) + (1-y)log(1-f(x)) \right]$

特点：
（1）本质上是一种对数似然函数，可用于二分类和多分类任务中；
（2）交叉熵损失函数也是0-1损失函数的光滑凸上界；
（3）逻辑回归 使用的就是交叉熵损失函数；

$L(y, f(x)) = exp[-yf(x)]$

$L(y, f(x)) = (y - f(x))^2$

$L(y, f(x)) = |y - f(x)|$

$L(y, f(x)) = \begin{cases} (y-f(x))^2, & |y-f(x)| \leq \delta \\ 2\delta |y-f(x)| - \delta^2, & |y-f(x)| > \delta \end{cases}$

Huber损失函数.png