【吴恩达机器学习】第二周—多变量线性回归

2020-03-09 本文已影响0人 Sunflow007

31.jpg

1.多变量线性回归

在第一周的房价和房屋面积的例子中，由于变量只有一个—面积，所以这类机器学习问题称为单变量线性回归，很明显，当变量数量>1时，即为多变量线性回归

2.多维特征

现在，假设除了房屋面积外，又增加了房屋数量、楼层、房屋年龄等特征，则此模型即变为了多变量的模型，模型的特征为: $x_1,x_2,...xn$ 则相应的多维的假设函数为：
$h_\theta (x) = \theta_0+\theta_1 x_1+\theta_2 x_2+...+\theta_n x_n$

为了方便，此时引入 $x_0 = 1$ $h_\theta (x) = \theta_0 x_0+\theta_1 x_1+\theta_2 x_2+...+\theta_n x_n$

简化一下，假设函数可以简化成： $h_\theta (x) = \theta^TX$

其中，特征矩阵 $X$ 的维度是 $m 行 * n + 1列$ $T$ 代表特征矩阵的转置

3.多变量梯度下降

多变量线性回归的损失函数/代价函数和之前的单变量线性回归类似，用到的还是平均损失函数，只是变量维度多了
$J（\theta_0,\theta_1...\theta_n）= \frac{1}{2m}\Sigma^m_{i=1}=(h_\theta(x^{(i)} - y^{(i)}))^2$ 其中：
$h_\theta (x) = \theta^TX = \theta_0 x_0+\theta_1 x_1+\theta_2 x_2+...+\theta_n x_n$

我们的目标和单变量线性回归问题中一样，是要找出使得代价函数最小的一系列参数。
多变量线性回归的批量梯度下降算法为：Repeat { $\theta_j := \theta_j - \alpha\frac{\vartheta}{\vartheta\theta_j}J(\theta_0,\theta_1...\theta_n)$ }即：Repeat { $\theta_j := \theta_j - \alpha\frac{\vartheta}{\vartheta\theta_j}\frac{1}{2m}\Sigma^m_{i=1}=(h_\theta(x^{(i)} - y^{(i)}))^2$ }

求导后得到：Repeat {
$\theta_j := \theta_j - \alpha\frac{1}{m}\Sigma^m_{i=1}(h_\theta(x^{(i)} - y^{(i)}) x_j^{(i)})$ for (j = 0,1,2...n)
}
特征维度>1时(n>1)有：
$\theta_0 := \theta_0 - \alpha\frac{1}{m}\Sigma^m_{i=1}(h_\theta(x^{(i)} - y^{(i)}) x_0^{(i)})$ $\theta_1 := \theta_1 - \alpha\frac{1}{m}\Sigma^m_{i=1}(h_\theta(x^{(i)} - y^{(i)}) x_1^{(i)})$
$\theta_2 := \theta_2 - \alpha\frac{1}{m}\Sigma^m_{i=1}(h_\theta(x^{(i)} - y^{(i)}) x_2^{(i)})$

开始随机选择一系列参数值，计算所有预测结果，再给所有参数一个新的值，如此循环直到收敛，即损失函数局部最小值。代码示例：

def computeCost(X, y, theta):
    inner = np.power(((X * theta.T) - y), 2)
    return np.sum(inner) / (2* len(X))

4.特征缩放

还是以房子为例，多变量线性回归模型中，房价不仅取决于房屋面积这个特征，还取决于房屋数量这个特征。
这两个特征的范围分别为：
面积：0~2000平方英尺
房屋数量：0~5

以这两个特征绘制的等高线图如下：

image.png

5.学习率

梯度下降算法收敛所需要的迭代次数根据模型的不同而不同，我们不能提前预知，我们可以绘制迭代次数和代价函数的图表来观测算法在何时趋于收敛。
如下图所示：

u=2991561657,474245474&fm=26&gp=0.jpg 横轴为迭代次数、纵轴为损失函数值—loss，可以看见，通常在训练刚开始，单位迭代次数下，loss下降的最快，随着迭代次数增加、loss下降的越来越慢，直至近乎停止，趋于收敛。

有一些自动测试是否收敛的方法，例如将代价函数的变化值与某个阀值(例如 0.001)
进行比较，但通常看上面这样的图表更好。
梯度下降算法的每次迭代受到学习率的影响，如果学习率𝑎过小，则达到收敛所需的迭代次数会非常高;如果学习率𝑎过大，每次迭代可能不会减小代价函数，可能会越过局部最小值导致无法收敛。

通常可以考虑尝试这些学习率: 𝛼 = 0.01，0.03，0.1，0.3，1，3，10