深度学习：学习率learning rate 的设定规律

2021-10-19 本文已影响0人小小杨树

Introduction

学习率 (learning rate)，控制模型的学习进度：

这里写图片描述

学习率大小

	学习率过大	学习率过小
学习速度	快	慢
使用时间点	刚开始训练时	一定轮数过后
副作用	1.易损失值爆炸；2.易振荡。	1.易过拟合；2.收敛速度慢。

学习率设置

在训练过程中，一般根据训练轮数设置动态变化的学习率。

刚开始训练时：学习率以 0.01 ~ 0.001 为宜。
一定轮数过后：逐渐减缓。
接近训练结束：学习速率的衰减应该在100倍以上。

Note：
如果是迁移学习，由于模型已在原始数据上收敛，此时应设置较小学习率 () 在新数据上进行微调。

学习率减缓机制

	轮数减缓	指数减缓	分数减缓
英文名	step decay	exponential decay	decay
方法	每N轮学习率减半	学习率按训练轮数增长指数插值递减	，控制减缓幅度，为训练轮数

把脉目标函数损失值曲线

理想情况下曲线应该是滑梯式下降 [绿线]：

这里写图片描述

曲线初始时上扬 [红线]：
Solution：初始学习率过大导致振荡，应减小学习率，并从头开始训练。
曲线初始时强势下降没多久归于水平 [紫线]：
Solution：后期学习率过大导致无法拟合，应减小学习率，并重新训练后几轮。
曲线全程缓慢 [黄线]：
Solution：初始学习率过小导致收敛慢，应增大学习率，并从头开始训练。

[1]解析卷积神经网络—深度学习实践手册

[2]调整学习速率以优化神经网络训练
转自：深度学习：学习率learning rate 的设定规律SunnyFish-ty的博客-CSDN博客学习率大小

上一篇下一篇

猜你喜欢

热点阅读