神经网络中的优化方法学习

2020-09-07  本文已影响0人  Seaton

今天拜读了邱锡鹏老师的《神经网络和深度学习》中的第七章——《网络优化与正则化》。

顺带说一句,最近三天都保持着一天一章的节奏,对于我而言,难度是非常地大,尤其是今天所学习的《网络优化与正则化》一章。整个章节中,有30%的内容是我彻底学会的,50%的内容是看完了知道大概是这么个意思,但是让我从头推理近乎不太可能的,还有剩下20%的内容是很陌生以及非常难得概念,看完都不太明白是什么的。

尽管这章难度不小,但看完之后还是收获颇丰。我原本以为深度学习只是网络的架构不同,学习足够不同的网络架构就可以仗剑天涯,面对各种场景了。本章却告诉我,对于一个网络模型,除了模型不同的架构外,我曾经误以为是默认设计,无关大雅的批量大小、学习率、梯度等概念都是可以通过一些优化算法来修改的。其背后都有众多的理论支持,选择好的优化算法可以让同一个模型跑出不同的精度。我曾经以为的权重矩阵的初始化就是一行代码随机赋值,而事实上,权重初值赋得好,可以避免训练过程中的梯度爆炸和梯度消失问题,换句话说,如果权重初值赋予不好,即便网络架构设计得再好也可能不会得到好的训练结果。我曾经使用的网络结构很少用到归一化的操作,但是看了这一章,更是了解了各种新奇的归一化方法。至于超参数的选择,我曾经以为就是跟着感觉走,随心去挑选,事实上也是有很多理论去指导超参数的选择。

这次的学习体验很像是小学刚学完自然数,突然有一天被告知有负数,学完了负数被告知还有小数,学完了小数被告知还有复数一样,我以为神经网络只是不同的架构调调参数,但是今天算是明白了我曾经学的都是冰山一角,我曾经每一次以为是人工经验的地方,背后都有很大的学问很大的探索空间。实在是需要虚心一点。

上一篇下一篇

猜你喜欢

热点阅读