Python数据分析与机器学习笔记

梯度下降策略

2019-01-21  本文已影响1人  python机器学习学习笔记

梯度下降原理

    直观解释比如我们在一座大山上的某处位置,由于我们不知道怎么下山,于是决定走一步算一步,也就是在每走到一个位置的时候,求解当前位置的梯度,沿着梯度的负方向,也就是当前最陡峭的位置向下走一步,然后继续求解当前位置梯度,向这一步所在位置沿着最陡峭最易下山的位置走一步。这样一步步的走下去,一直走到觉得我们已经到了山脚。当然这样走下去,有可能我们不能走到山脚,而是到了某一个局部的山峰低处。

    从上面的解释可以看出,梯度下降不一定能够找到全局的最优解,有可能是一个局部最优解。当然,如果损失函数是凸函数,梯度下降法得到的解就一定是全局最优解。

梯度法思想的三要素:出发点、下降方向、下降步长。

引入:当我们得到一个目标函数后,如何进行求解?

直接求解?(并不一定可解,线性回归可以当做是一个特例)

常规套路:机器学习的套路就是我交给机器一堆数据,然后告诉它什么样的学习方式是正确的(目标函数),然后让它朝着这个方向去做

如何优化:一口吃不成个胖子,我们要静悄悄的一步一步完成迭代

举个栗子:

    目标函数:

 目的:寻找山谷的最低点,也就是我们的目标函数终点(什么样的参数能使得目标函数达到极值点)

下山分几步走呢?(更新参数)

(1)找到当前最合适的方向

     (2)走那么一小步,求解当前位置梯度

(3)按照方向与步伐去更新我们的参数

梯度下降方法对比

梯度下降,目标函数:

批量梯度下降:

参数θ的每次更新,需要 计算全部数据集的样本的负梯度方向,取均值作为下一次梯度下降的方向。

    

特点:

    计算量大,参数更新慢,对内存的要求很高,不能以在线的形式训练模型,也就是运行时不能加入新样本

    理论上讲,可以得到全局最优解,参数更新比较稳定,收敛方向稳定

随机梯度下降:

每次只选择一个样本来求得偏导,进行参数θ的更新。

特点:

    运算速度很快,同时能够在线学习

    随机梯度下降参数更新的过程震荡很大,目标函数波动剧烈,参数更新方向有很大的波动

    其较大的波动可能收敛到比批量梯度下降更小的局部极小值,因为会从一个极小值跳出来

小批量梯度下降法:

该方法集合了批量梯度下降和随机梯度下降两者的优势,每次的参数更新利用一小批数据来完成。

特点:

    降低了更新参数的方差,使得收敛过程更加的稳定

    能够利用高度优化的矩阵运算,很高效的求得每小批数据的梯度

学习率对结果的影响

学习率(步长):对结果产生巨大的影响,一般要小一些。学习速率的选择,可以尝试0.001、0.01、0.1、1。选择一个最大的学习速率,然后选择一个比它小一点点的学习率,通常能够找到最合适的学习速率来解决我们的问题。

批处理数量:32,64,128都可以,一般还要考虑内存和效率。

上一篇 下一篇

猜你喜欢

热点阅读