特征缩放与学习速率

2018-05-19 本文已影响0人马光98

在多项特征中，有可能遇到x1的范围在1~10，而x2的范围在5000~100000，此时由于x1与x2的范围相差太大，会减慢代价函数的梯度下降求极小值，所以我们要对特征进行缩放（Feature Scaling），使他们的值都落在某一区间内，通常的缩放如下：

平均归一化

此处μi代表了第i个特征值的全部值取平均，si代表了该特征值可能出现的区间宽度（最大值减去最小值），通过缩放，我们仅需通过操控α的值就能较快目的求值

在梯度下降时，针对每个参数θj，我们都是通过下图这个方式不断赋值去找最佳的值

不断逼近找最佳

理想情况应该是这样：

随着步数增加不断降低

有可能出现的不应该出现的情况：

横轴为步数

这种很容易理解，就是α过大了，情况变成了讲义中的这样：

越走越上了

讲义中还有另一种：

不断上下波动

自己理解了一下，应该是出现了这种情况：

特殊情况

原因在于上面的偏导数突然变小，纵然α比较大，但是减去的甚至没有原来的多，所以掉下来了，如果情况足够特殊会掉到一开始出发的点，所以不断上下波动重复了，同样减小α的值就能解决

之前假设的都是线性函数，如果是非线性的函数时，最好进行特征缩放