什么是过拟合、网络退化、梯度消失和梯度爆炸?

2020-05-10  本文已影响0人  一位学有余力的同学

1.过拟合

过拟合指的是在训练集上表现很好,而在测试集上表现很差。

原因
模型过度的学习训练样本所具有的特性,导致将训练样本所独有的特性,不是这一类别所共有的特性。例如训练能够识别狗的网络,模型只能认识哈士奇是狗,而不认识金毛也是狗。当用测试数据集进行预测时会导致模型的预测准确率较低,泛化性能较差。

解决办法

2.网络退化

增加网络的层数,可以使模型准确率达到饱和(100%),继续增加网络模型的层数,准确率会逐渐降低,这种现象不是由于过拟合而造成的。

原因
理论上较深的模型不应该比它对应的较浅的模型更差,因为较深的模型是较浅的模型的超空间。较深的模型可以这样得到:先构建较浅的模型,然后添加很多恒等映射的网络层。
实际上较深模型后面添加的不是恒等映射,而是一些非线性层。因此,退化问题也表明了:通过多个非线性层来近似恒等映射可能是困难的。

解决办法

3.梯度消失和梯度爆炸

原因
梯度消散和梯度爆炸本质上是一样的,都是因为网络层数太深而引发的梯度反向传播中的连乘效应。Sigmoid激活函数最容易产生梯度消散,这是由于它的函数特性决定的。

解决办法

参考
网络退化、过拟合、梯度消散/爆炸

上一篇下一篇

猜你喜欢

热点阅读