Learning rate(学习效率)
2017-06-15 本文已影响191人
安东可
确定梯度下降工作正常
Paste_Image.png可从途中看出,当迭代了400次的时候,这个时候代价函数每次变化的的值基本小于预定义的一个值10的负三次方,这个时候,我们可以称呼代价函数已经收敛。一般选取一个数 ,如果J(thelta)下降的幅度小于 这个值,则认为收敛了。但实际上很难选择这个阈值。
Paste_Image.png
当alpha过大的时候,梯度下降就会不正常,如此,
我们就应该选择小一些的alpha,如果alpha过于小的时候,步长太小,那么每次迭代代价函数就会变得变化的非常缓慢,因此效率会变得低下。
因此,需要重新选择alpha Paste_Image.png
总结一下:
1.如果alpha是太小,那么代价函数的收敛变得缓慢
2.如果alpha太大的话,代价函数在迭代的时候可能就不会减小,反而会增大,因此收敛不了。
3.如果学习率α足够小,则每次迭代都会减小J(θ),那么代价函数一定会收敛,即变小,只是收敛的速度不一样。
最后,在选取alpha数值的时候,可以按照ng的方法,选择3的十倍数,如0.003,0.03,0.3等,