特征缩放与学习速率
2018-05-19 本文已影响0人
马光98
在多项特征中,有可能遇到x1的范围在1~10,而x2的范围在5000~100000,此时由于x1与x2的范围相差太大,会减慢代价函数的梯度下降求极小值,所以我们要对特征进行缩放(Feature Scaling),使他们的值都落在某一区间内,通常的缩放如下:
平均归一化此处μi代表了第i个特征值的全部值取平均,si代表了该特征值可能出现的区间宽度(最大值减去最小值),通过缩放,我们仅需通过操控α的值就能较快目的求值
在梯度下降时,针对每个参数θj,我们都是通过下图这个方式不断赋值去找最佳的值
不断逼近找最佳理想情况应该是这样:
随着步数增加不断降低有可能出现的不应该出现的情况:
横轴为步数这种很容易理解,就是α过大了,情况变成了讲义中的这样:
越走越上了讲义中还有另一种:
不断上下波动自己理解了一下,应该是出现了这种情况:
特殊情况原因在于上面的偏导数突然变小,纵然α比较大,但是减去的甚至没有原来的多,所以掉下来了,如果情况足够特殊会掉到一开始出发的点,所以不断上下波动重复了,同样减小α的值就能解决
之前假设的都是线性函数,如果是非线性的函数时,最好进行特征缩放