机器学习误差与改进策略(二)

2018-10-11  本文已影响0人  躺在稻田里的小白菜

一. 如何判断过拟合与欠拟合

1. 根据训练集与验证集(测试集)的代价

d表示多项式的指数,d越大,模型越复杂。

2. 根据学习曲线来判断

注意此图的纵坐标是准确率,不是错误。

  1. 欠拟合曲线(图1)特点:
  1. 过拟合曲线(图2)特点:

二. 正则化解决过拟合

机器学习中,如果参数过多,模型过于复杂,容易造成过拟合。为了避免过拟合,最常用的一种方法是使用使用正则化,例如 L1 和 L2 正则化。

1. L1正则化

L1正则化是权值的绝对值之和,其中J0是原始的损失函数,加号后面的一项是L1正则化项,α是正则化系数。


L1正则化项的特点:稀疏性
当我们在原始损失函数J0后添加L1正则化项时,相当于对J0做了一个约束(类似于拉格朗日乘子法)。令正则化项为L,此时我们的任务变成在L约束下求出J0取最小值的解。考虑二维的情况,即只有两个权值:

图中等值线是J0的等值线,黑色方形是L函数的图形。在图中,当J0等值线与L图形首次相交的地方就是最优解。上图中J0与LL在L的一个顶点处相交,这个顶点就是最优解,此时有一个权值是为0的。可以直观想象,因为L函数有很多『突出的角』(二维情况下四个,多维情况下更多),J0与这些角接触的机率会远大于与L其它部位接触的机率,而在这些角上,会有很多权值等于0,这就是为什么L1正则化可以产生稀疏模型,进而可以用于特征选择。
2. L2正则化

L2 正则化公式也非常简单,直接在原来的损失函数基础上加上权重参数的平方和。



L2正则化通常会降低高次项的权重,只是为了降低过拟合,不具有稀疏性。



二维平面下L2正则化的函数图形是个圆,与方形相比,被磨去了棱角。因此J0与L相交时使得w1或w2等于零的机率小了许多,这就是为什么L2正则化不具有稀疏性的原因。
上一篇下一篇

猜你喜欢

热点阅读