第八章 梯度方法

2019-06-18  本文已影响0人  Xuang123

8.1 引言

梯度方法其实就是我们神经网络中的gradient decent,梯度下降。
首先回顾以下概念:
水平集
梯度
梯度是一个实值可微函数在某点处函数值增加最快的方向,它正交于经过改点的水平集。因此,梯度负方向是函数减少最快的方向,这应该是一个很好的搜索方向。
x^{(0)}作为初始搜索点,并沿着梯度负方向构建一个新点x^{(0)}-\alpha \nabla f(x^{(0)}),则可以推论出新点的函数值较原始点更优,证明如下:
由泰勒定理:
f(x^{(0)}-\alpha \nabla f(x^{(0)}) = f(x^{(0)})- \alpha||\nabla f(x^{(0)})||^2+o(\alpha)
因此,当\nabla f(x^{(0)}) \neq 0\alpha>0足够小时,可以保证:
f(x^{(0)}-\alpha \nabla f(x^{(0)}) < f(x^{(0)})
因此,我们可以获得如下迭代公式:
x^{(k+1)} = x^{(k)}-\alpha \nabla f(x^{(k)})
这种搜索过程中,梯度会不断变化,当接近极小点,梯度应趋近于0。所以这时候步长就很重要了。

8.2 最速下降法

最速下降法是梯度方法是一种具体实现。其理念为每次迭代选择合适的步长\alpha_k,是的目标函数能够得到最大程度的减小。
最速下降法的迭代流程为:每步迭代中,从当前迭代点x^{(k)}出发,沿着梯度负方向-\nabla f(x^{(k)}展开搜索,直到找到步长的最优结果,确定新的迭代点。
最速下降法的搜索方向是正交的,如图:

迭代点序列
命题8.1证明这一理论:
命题8.1:利用最速下降法搜索过程中产生的序列,那么,与正交对所有的成立。

迭代的可行性和停止标准
当然在实际运行中很难使梯度完全为0,因此一般计算梯度的范数,只需小于某个阈值即可。

8.3 梯度方法性质分析

收敛性
特大证明我赌不考。

上一篇下一篇

猜你喜欢

热点阅读