训练神经网络Loss先降后升?
2019-10-04 本文已影响0人
星回壹玖
出现这种现象可能是最开始设置的学习率可能过大,可以试用warm up
的方式。
warm up
即step小于warm up step时,学习率等于基础学习率×(当前step/warmup_step),由于后者是一个小于1的数值,因此在整个warm up的过程中,学习率是一个递增的过程, 当warm up结束后,学习率开始递减。
出现这种现象可能是最开始设置的学习率可能过大,可以试用warm up
的方式。
warm up
即step小于warm up step时,学习率等于基础学习率×(当前step/warmup_step),由于后者是一个小于1的数值,因此在整个warm up的过程中,学习率是一个递增的过程, 当warm up结束后,学习率开始递减。