几种利用梯度下降的优化方式

2019-05-29 本文已影响0人 Woooooooooooooo

文章参考其他博文，再次表示感谢，侵删

假设利用回归方程拟合数据V

以均方误差作为损失函数，损失函数即我们所要优化的函数

一般会选用梯度下降法（Gradient Descent）进行优化。优化时有不同的方式，也可理解为训练技巧。

1、对目标函数求导
2、沿倒数反方向移动θ
（学习率可能需要更新）

使用最速梯度下降法，将进行N次迭代，直到目标函数收敛，或者到达某个既定的收敛界限。每次迭代都将对m个样本进行计算，计算量大。为了简便计算，SGD每次迭代仅对一个样本计算梯度，直到收敛。

1、由于SGD每次迭代只使用一个训练样本，因此这种方法也可用作online learning。
2、每次只使用一个样本迭代，若遇上噪声则容易陷入局部最优解。

介于BSD和SGD之间的一种优化算法。每次选取一定量的训练样本进行迭代。从公式上似乎可以得出以下分析：速度比BSD快，比SGD慢；精度比BSD低，比SGD高。

1、选择n个训练样本（n<m，m为总训练集样本数）
2、在这n个样本中进行n次迭代，每次使用1个样本
3、对n次迭代得出的n个gradient进行加权平均再并求和，作为这一次mini-batch下降梯度
4、不断在训练集中重复以上步骤，直到收敛。