2018-12-05梯度下降-II参数的研究

2018-12-05  本文已影响0人  奈何qiao

重复直到收敛:

参数更新 研究导数部分带来的影响

\theta _{1} 位于最小值的右侧,位于\theta _{1} 的切线斜率(即导数部分)大于0,使得等式左边新\theta _{1} 减小,J减小,接近最小值J;

\theta _{1} 位于最小值的左侧,位于\theta _{1} 的切线斜率(即导数部分)小于0,使得等式左边新\theta _{1} 增大,J减少,接近最小值J;

综上所述,不管\frac{dJ(\theta _{1} )}{d\theta _{1} } 的大小为正为负,J都会收敛至他的最小值。

另外,我们应该调整参数α以确保梯度下降算法在合理的时间内收敛。 没有收敛或花费太多时间来获得最小值都意味着步长α是错误的。

\theta _{1} 为局部最小值的时候,切线斜率为0,等式左边的新\theta _{1} 保持不变。

导数最小值

收敛的直观表现是\frac{dJ(\theta _{1} )}{d\theta _{1} } 接近于0。

研究α参数带来的影响

当α过小时,梯度下降过慢,每一次的变化幅度太小。

当α过大时,梯度下降可能会越过最小值(产生偏离)。这会导致没有收敛或者偏离。

α固定下的收敛

梯度下降会收敛到一个局部最小值,即使是学习效率α固定的情况下。

当J接近最小值时,梯度下降会自动采用更小的步伐,下降的幅度自动变小,因为导数(斜率)正在慢慢变小。所以不需要随着时间增大α。

上一篇下一篇

猜你喜欢

热点阅读