特征缩放与学习速率

2018-05-19  本文已影响0人  马光98

在多项特征中,有可能遇到x1的范围在1~10,而x2的范围在5000~100000,此时由于x1与x2的范围相差太大,会减慢代价函数的梯度下降求极小值,所以我们要对特征进行缩放(Feature Scaling),使他们的值都落在某一区间内,通常的缩放如下:

平均归一化

此处μi代表了第i个特征值的全部值取平均,si代表了该特征值可能出现的区间宽度(最大值减去最小值),通过缩放,我们仅需通过操控α的值就能较快目的求值


在梯度下降时,针对每个参数θj,我们都是通过下图这个方式不断赋值去找最佳的值

不断逼近找最佳

理想情况应该是这样:

随着步数增加不断降低

有可能出现的不应该出现的情况:

横轴为步数

这种很容易理解,就是α过大了,情况变成了讲义中的这样:

越走越上了

讲义中还有另一种:

不断上下波动

自己理解了一下,应该是出现了这种情况:

特殊情况

原因在于上面的偏导数突然变小,纵然α比较大,但是减去的甚至没有原来的多,所以掉下来了,如果情况足够特殊会掉到一开始出发的点,所以不断上下波动重复了,同样减小α的值就能解决


之前假设的都是线性函数,如果是非线性的函数时,最好进行特征缩放

上一篇 下一篇

猜你喜欢

热点阅读