梯度下降

2018-04-16 本文已影响14人 Jocelyn_Long

首先假设一些变量
m 为训练数据样本，x为输入变量值也就特性，y为输出变量，也就是目标变量。(x,y)为一组数据。
反正最后公式就是这样... 怎么求导出来的我听了一节课也不明白... 可能还是要先补数学..
总之最后的代数表达式为:

tidudaishu.png

还有一种向量的更简单的表达式

tiduxiangliang.png

梯度下降概念

就是在初始化数据点求偏微分然后得出梯度下降最大点。
所以这里会涉及一个初始值选择和步长。

步长设置过小则收敛速度慢，过大则可能错过最优解。
初始值不同也有可能得到的是局部最优解而不是全部最优解。

梯度下降的算法调优也主要是步长与初始值设置了。还有一个就是输入特征归一化，这样更方便进行计算。

梯度下降有三种

批梯度下降算法
批就是针对全部样本的意思，数据量大的时候可能导致训练速度慢。
随机梯度下降算法
即在样本中随机选取J组样本。训练快，但是在数据样本大的时候，局部最优解浮动很大不能快速收敛。
小批量梯度下降算法
结合了上述两种算法的优点。

参考资料

梯度下降小结
 哈佛机器学习公开课
 梯度下降在TensorFlow中的应用

上一篇下一篇

猜你喜欢

热点阅读