达叔机器学习第二章学习总结

2018-11-22  本文已影响0人  文_飞

单变量线性回归(Linear Regression with One Variable)

概念,符号描述

h_\theta \left( x \right)=\theta_{0} + \theta_{1}x

我们将要用来描述这个回归问题的标记如下:
m 代表训练集中实例的数量
x 代表特征/输入变量
y 代表目标变量/输出变量
\left( x,y \right) 代表训练集中的实例
({{x}^{(i)}},{{y}^{(i)}}) 代表第i 个观察实例
h 代表学习算法的解决方案或函数也称为假设(hypothesis

代价函数(Cost Function)

h_\theta \left( x \right)=\theta_{0} + \theta_{1}x式子中,我们现在拥有一堆训练数据(x,y),现需要通过训练集来找出合适的\theta_{0} , \theta_{1},通过怎样的方法来找出呢?现在引入了代价函数的概念。
我们先随机划一条线,这条线与所有的训练集的距离平方差的和(数学期望)为代价函数:
J \left( \theta_0, \theta_1 \right) = \frac{1}{2m}\sum\limits_{i=1}^m \left( h_{\theta}(x^{(i)})-y^{(i)} \right)^{2}
,我们的目标就是找出代价函数 J \left( \theta_0, \theta_1 \right)最小值(即数学期望越小,模拟出的线与实际数据越吻合),从而确定\theta_0, \theta_1。这个问题就转化为求解最优的θ,使损失函数 J \left( \theta_0, \theta_1 \right)取最小值。那么如何解决这个转化后的问题呢?

梯度下降

找出代价函数的最小值可以有多种数学方法实现,这里介绍的是梯度下降,就是对代价函数求偏导数,从而确定代价函数的极值(该代价函数为凸函数)。
对于梯度下降的理解,达叔比喻为“下山算法”个例子。


image.png

梯度下降背后的思想是:开始时我们随机选择一个参数的组合\left( {\theta_{0}},{\theta_{1}},......,{\theta_{n}} \right),计算代价函数,然后我们寻找下一个能让代价函数值下降最多的参数组合。我们持续这么做直到到到一个局部最小值(local minimum),因为我们并没有尝试完所有的参数组合,所以不能确定我们得到的局部最小值是否便是全局最小值(global minimum),选择不同的初始参数组合,可能会找到不同的局部最小值。
想象一下你正站立在山的这一点上,站立在你想象的公园这座红色山上,在梯度下降算法中,我们要做的就是旋转360度,看看我们的周围,并问自己要在某个方向上,用小碎步尽快下山。这些小碎步需要朝什么方向?如果我们站在山坡上的这一点,你看一下周围,你会发现最佳的下山方向,你再看看周围,然后再一次想想,我应该从什么方向迈着小碎步下山?然后你按照自己的判断又迈出一步,重复上面的步骤,从这个新的点,你环顾四周,并决定从什么方向将会最快下山,然后又迈进了一小步,并依此类推,直到你接近局部最低点的位置。

批量梯度下降(batch gradient descent)算法的公式为:

image.png

其中a是学习率(learning rate),它决定了我们沿着能让代价函数下降程度最大的方向向下迈出的步子有多大,在批量梯度下降中,我们每一次都同时让所有的参数减去学习速率乘以代价函数的导数。
对我们之前的线性回归问题运用梯度下降法,关键在于求出代价函数的偏导数,即:

image.png
上一篇下一篇

猜你喜欢

热点阅读