线性回归

2018-09-25 本文已影响0人煮饺子的茶壶

假设函数：

参数：θ

特征量：x

代价函数：

梯度下降算法：下图为梯度下降的目的，找到J（θ）的最小值。

例子

其实，J(θ)的真正图形是类似下面这样的，因为其是一个凸函数，只有一个全局最优解，所以不必担心像上图一样找到局部最优解。

凸函数

等高线图

θ参数公式

特征缩放：

特征缩放(Feature scaling)，在这里我认为它是对用于梯度下降法的数据进行处理的方法。它的作用是，将多个特征的数据的取值范围处理在相近的范围内，从而使梯度下降更快地收敛。

(1) 该特征的值/该特征的最大值

x=x/s

(2) (该特征值-该特征最大取值的一半）/（该特征的最大值）

x=（x-μ）/s

μ：特征量平均值 s：特征量最大值减最小值

学习率：

除了特征的缩放会影响梯度下降的运算，学习速率也会直接影响。这里所说的“学习速率”，指的是梯度下降表达式中的α。

如何判断学习速率是否合适？最直接的方法是，画出训练后代价函数和迭代数的图像，根据图像去判断调整。除此之外，还可以使用自动检测法。即当代价函数在迭代中，小于一个很小的值时，我们就认为梯度下降收敛。但是，这个“很小的值”是很难确定的，一般可取1e-3。当然，还是优先选择第一种方法判断！下面就列举几种常见情况进行讲解。