花书 深度模型中的优化(阅读笔记)

2020-02-11  本文已影响0人  辛兆福

深度学习(花书)

第二部分 深度网络:现代实践

第八章 深度模型中的优化

本章主要关注数值优化问题:寻找神经网络上一组参数θ,他能显著降低代价函数J(θ),该代价函数通常包括整个训练集上的性能评估和额外的正则化项

通常代价函数可以写作训练集的平均:
J(θ) = E_{(x,y)\sim\hat{p}_{data}} L(f(x,θ),y)
L是每个样本的损失函数
f(x,θ)是预测输出,y是目标输出
\hat{p}_{data}是经验分布
以有限样本的经验分布代替未知数目样本的真实分布
最小化经验风险:
J(θ) = E_{(x,y)\sim\hat{p}_{data}} L(f(x,θ),y) = \frac{1}{m} \sum\limits_{i =1}^{m}{L(f(x^{(i)},θ),y^{(i)})}
m为训练样本数量

代理损失函数:用于替代损失函数,旨在解决损失函数效能不足的问题

基于采样的梯度估计算法可以在以损失n倍均值标准差的代价换取n^{2}倍的计算量的减少

批量(确定性)算法:使用整个数据集优化
随机(在线online)算法:每次使用单个样本优化
批量(单独在文本中出现时):一组样本
批量大小(单独在文本中出现时):小批量的大小
小批量(批量随机)算法:介于上述两者之间 使用部分样本 常取值为2^{32}\sim2^{256}

梯度截断:调节因梯度剧烈变化带来的剧烈变化的步长
学习率:必要时可以使得学习率随条件的变化而变化
动量:随训练时长可以不断调整步长

超参数的设置

批标准化:自适应重参数化的方法,旨在解决超深层网络难以训练的问题

坐标下降:优化问题的拆解

优化模型比优化算法更容易

上一篇下一篇

猜你喜欢

热点阅读