【学习笔记】ML的核心-Loss Functions！

2019-01-28 本文已影响0人野生小熊猫

我写这篇很大的原因是因为感觉对各种Loss Functions掌握的不够。经我各种翻阅和调查99%的博客都只告诉你这些个Loss Function是什么，在什么模型下用，他们却不告诉你为什么，怎么来的。（我不会告诉你我是因为被阿里的面试官问了一堆Loss Function问成了个扑街仔才写这篇文章的orz）

希望对大家有所帮助！

0. 本篇大纲

Loss Function的定义
Regression与Classification对Loss Function的选择
Regression中各种Loss Function的选择
Classification中各种Loss Function的选择
Credit

1. Loss Function定义

What it is?

Loss Function(损失函数)是用来计算模型h(x)的预测值和（训练集中的）真实值y的不一致程度。

Why important?

在机器学习的各种模型中Loss Function是一个有非凡意义的概念！通过训练使Loss Function的逐渐减小，模型h(x)和（训练集中）真实值y就越接近，模型的bias就越小，我们就能够得到一个和训练集拟合程度越高的模型。（当然拟合过头overfit了，容易扑街= 。=）

2. Regression与Classification对Loss Function的选择

Main Reasons(万变不离其宗的理由): Loss Function(损失函数)是用来计算模型h(x)的预测值和（训练集中的）真实值y的不一致程度。（重要的事情重复三遍X1）

1. Regression:

How to choose Loss for Regression?

1.png

Loss Function(损失函数)是用来计算模型h(x)的预测值和（训练集中的）真实值y的不一致程度。（重要的事情重复三遍X2）

所以对于Regression来说，Loss Function是指每个真实值与其线性模型h(x)不一致程度之合。h(x)与真实值越接近，cost越小，h(x)与真实值越远，cost越大。因此我们需要的cost function需要仅在=真实值的时候为0，越远离真实值越大（不论cost function是直的（MAE）还是弯的（MSE））。

通过使用这样的Cost function和Loss Function，我们就可以很好的找出最能够最好拟合一条符合真实值分布的线。

2.png

2. Classification:

How to choose Loss for Classification?

3.png

3.1.png

Loss Function(损失函数)是用来计算模型h(x)的预测值和（训练集中的）真实值y的不一致程度。**（重要的事情重复三遍X3）

所以对于Classification而言，Loss Function是指每一个真实分类y与其模型对其分类h(x)的不一致程度之和。h(x)分对了类，cost小，h(x)分错了类，cost大。因为我们需要cost function需要在分对类尽可能接近0或者直接等于0（当y=1的时候, h(x)>1的部分,当y=0的时候，h(x)<0的部分），分的不对的时候尽可能大（不论cost function是弯的(Log Loss)还是直的(Hinge Loss)）。

通过使用这样的Cost function和Loss Function，我们就可以很好的找出最能够最好拟合一条符合真实值分布的线。

4.png

3. Regression VS Classification

Why MAE or MSE can not be used in Classification?

5.png

（credit:What are the main reasons not to use MSE as a cost function for Logistic Regression?）

从上面这张图（y=1时各种cost function,x轴为z=θx）中我们很显然可以看出，MSE这个cost function仅在=真实值的时候为0，也就是仅仅在h(x)=1的时候cost=0。当h(x)>1的时候，cost增加了，然而在classification的定义中，h(x)>1的时候仍然是分为1这个类中的。cost根本不需要增加，也不能增加！由此说明MAE和MSE这种Loss Function是不适用于Classification的问题的。

What if I used MSE in Classification?

6.png

(credit: 吴恩达机器学习课程的某页PPT)

正如上图，如果在Classification中使用MAE，它的Loss Function是非凹(convex)的，但在Classification中使用Log Regression,它的Loss Function是convex的。（具体证明可以用Loss Function的二阶导恒大于等于0证明，大家可以上网搜一下）