神经网络之性能曲面和最优点
需要掌握的知识点:
1、梯度
2、Hessian矩阵
3、驻点:梯度为0的点
4、曲面的二次函数函数表示形式及其梯度和Hessian矩阵公式
方向导数:
1、任何和梯度正交的方向,其斜率都为0;
2、当方向向量和梯度的内积最大时,斜率最大,即当方向向量和梯度方向相同时。
强极小点,跟Hessian矩阵的特征值有关:
1、如果Hessian矩阵的所有特征值都为正(负),则函数存在一个唯一的强极小(大)点。
2、如果Hessian矩阵的特征值有正有负,则函数存在一个唯一的鞍点。
3、如果Hessian矩阵的所有特征值都非负,但某些特征值为0,则函数存在一个弱极小点或没有驻点。
4、如果Hessian矩阵的所有特征值都非正,但某些特征值为0,则函数存在一个弱极大点或没有驻点。
二阶导数:
在了解二阶导数特征值、特征向量之前,我们先了解下特征值与特征向量在代数和几何层面的实际意义:
从定义出发,Ax=cx:A为矩阵,c为特征值,x为特征向量。
矩阵A乘以x表示,对向量x进行一次转换(旋转或拉伸)(是一种线性转换),而该转换的效果为常数c乘以向量x(即只进行拉伸)。
我们通常求特征值和特征向量即为求出该矩阵能使哪些向量(当然是特征向量)只发生拉伸,使其发生拉伸的程度如何(特征值大小)。这样做的意义在于,看清一个矩阵在那些方面能产生最大的效果(power),并根据所产生的每个特征向量(一般研究特征值最大的那几个)进行分类讨论与研究。
1、Hessian矩阵中,在最大特征值所对应的特征向量的方向上有二阶导数的最大值,事实上,在每一个特征向量方向上,二阶导数都等于相应的特征值。在其他方向上,二阶导数是特征值的加权平均。特征值是相应特征向量方向上的二阶导数。
2、等高线的疏密与地势的坡度有关。等高线越密集,代表该地区的坡度越陡;等高线越稀疏,说明地势坡度越小越平坦。
3、假设有一大一小两个特征值,较小曲率(二阶导数)落在小特征值对应的特征向量方向上,这里较平坦;较大曲率(二阶导数)落在大特征值对应的特征向量方向上,这里陡峭;所以说,特征向量被称为函数等高线的主轴。
综上:Hessian矩阵的特征值控制了梯度更新步长,对于二维图像的某点的Hessian矩阵,其最大特征值和对应的特征向量对应其邻域二维曲线最大曲率的强度和方向,即山坡陡的那面,最小特征值对应的特征向量对应与其垂直的方向,即平缓的方向。
特征值的正负决定曲率的正负,特征值绝对值的大小决定等高线的稠密。如果特征值异号,Hessian矩阵就不再是半正定矩阵,那么驻点不再是强极小点,但是并不影响强极大点的存在。
曲率为0表示线性斜坡。