梯度下降

2019-01-10 本文已影响4人 geekAppke

每次求梯度，寻找一个方向
底部斜率接近为0

a 不能太小，效率低步子太小；太大容易扯着

梯度的方向，theta前进的方向；

最优化一个目标函数

并不是所有函数都有唯一的极值点

多次运行，随机化初始点
梯度下降法的初始点也是一个超参数

目标：使 $\sum_{i=1}^{m}({y^{(i)}} - {\hat{y}^{(i)}})^{2}$ 尽可能小

线性回归法的损失函数具有唯一的最优解

梯度下降法总结

批量梯度下降法Batch Gradient Descent：稳定、方向一定是损失函数下降最快的方向！
随机梯度下降法Stochastic Gradient Descent：计算快、每一次计算方向是不确定的；甚至是向反方向移动。
小批量梯度下降法Mini-Batch Gradient Descent：综合2者优缺点，不那么极端

不要看所有样本这么多；
也不要看一个样本这么少
看k个样本，k行

去2种方法，不那么极端，将2者结合在一起
多引入1个超参数

梯度下降法

不是一个机器学习算法
一种基于搜索的最优化方法
作用：最小化一个损失函数
梯度上升法：最大化一个效用函数

随机梯度下降法

跳出局部最优解
更容易找到损失函数整体的最优解
更快的运行速度
随机搜索、随机森林、蒙卡洛算法

不确定世界中，不确定的问题，本身就可能没有一个固定的最优解 —— 随机有其优势

梯度下降

并不是所有函数都有唯一的极值点

目标：使 $\sum_{i=1}^{m}({y^{(i)}} - {\hat{y}^{(i)}})^{2}$ 尽可能小

梯度下降法总结

梯度下降法

随机梯度下降法

猜你喜欢

热点阅读

梯度下降

并不是所有函数都有唯一的极值点

目标：使尽可能小

梯度下降法总结

梯度下降法

随机梯度下降法

猜你喜欢

热点阅读

目标：使 $\sum_{i=1}^{m}({y^{(i)}} - {\hat{y}^{(i)}})^{2}$ 尽可能小