深度学习·神经网络·计算机视觉

浅谈过拟合(over-fitting)-原因、危害、解决方法

2018-03-16  本文已影响128人  BookThief

一. 误差和性能度量

分类错误的样本数占样本总数的比例

D是样本集合,f是模型,f(xi)是模型输出,yi是实际类标,Ⅱ()
是指示函数,在内部为真和假时分别取值1,0)

m个样本内有a个样本分类错误,则错误率为E = a/m

对应的 1 - a/m就称为精度,即精度 = 1 - 错误率。


二. 过拟合


我们实际希望的,是在新样本上能表现得很好的学习器.为了达到这个目的,应该从训练样本中尽可能学出适用于所有潜在样本的"普遍规律",这样才能在遇到新样本时做出正确的判别.然而,当学习器把训练样本学得"太好"了的时候,很可能巳经把训练样本自身的一些特点当作了所有潜在样本都会具有的一般性质,这样就会导致泛化性能下降。

更本质点讲,任何完美的模型(泛化误差为0)都是一个高维曲面。这个曲面虽然是高维的,但是却十分光滑,可是当我们过度解读(over-fitting)之后,往往造成这种概念和高维曲面具有过多细节,形状不够柔和。

三. 过拟合的原因

四. 过拟合的危害

“危害”:女神冲我微笑了--->女神喜欢我。

五. 过拟合的解决方法

过拟合是无法完全避免的,但是可以通过一些方法减少过拟合。

上一篇 下一篇

猜你喜欢

热点阅读