AI数学基础1-直觉化理解微积分
人工智能需要三大数学基础:线性代数、微积分和统计与概率论。
线性代数用于矩阵计算,极大的提升了大规模数据计算速度《AI数学基础6-向量化(Vectorization)》;
微积分用于优化训练过程,找到最优解;机器学习算法,从数学角度来看,就是优化问题,即找到误差函数的最小点。
统计与概率论是从大量样本中找到规律的理论方法;机器学习算法是建立在统计与概率论的很多经典模型之上的。
本文主要讨论人工智能中所用到的微积分。
在训练数据集上,通常情况下,是找到代价函数J(W)(cost function)的最小值,来确定最优的参数w和b。为了便于理解,把w简化为一个实数,则代价函数与w的关系可以表示为:
如上图可以看到,我们的目标就是要找到Jmin(W)
当J(W)为一维函数时,梯度(Gradient)可以理解函数的导数(derivative),从图中直观上看,曲线的导数就是曲线的斜率(slope)。
w变大时,J(w)变大,斜率为正;
w变大时,J(w)变小,斜率为负;
当w在Jmin(W)点的右边时,我们希望下一个w出现在当前w的左边,即w变小;
当w在Jmin(W)点的左边时,我们希望下一个w出现在当前w的右边,即w变大;
用符号“:=”表示更新参数,
w := w - step
step的方向可以用当前J(w)的斜率,即导数,来实现;
step的大小可以用一个参数与J(w)的导数数值相乘,来调整,这个参数,我们叫做Learning rate, 用α来表示,由此
通过上面的分析,希望给大家一个直观的印象:导数就是函数曲线的斜率,通过斜率,指明w增加或减少的方向,最终找到最小的J(w)的值,从而找到最优的w。
在数学中,有一个结论:如果实值函数F(x)在a点处可微且有定义,那么函数F(x)在a点沿着梯度相反的方向下降最快
下图,展示了梯度下降法的整个迭代过程:
理解了这一点,就明白了微积分,更具体的说是梯度下降法在神经网络中求取最优参数w的用处,对于应用神经网络来说,基本就够用了。不需要再把微积分像大一学《高等数学》那样重学一遍:)