盒饭版算法之随机梯度下降方法（SGD）

2017-12-10 本文已影响0人 eryesanye

之所以叫盒饭版算法，是希望能在最短时间讲一些没那么正式的东西。

在机器学习里，我们通常用优化方法来计算模型的未知参数，随机梯度下降方法（SGD）是其中一种优化方法。

下面这篇博客介绍了如何用SGD来获得一个线性模型。
https://machinelearningmastery.com/implement-linear-regression-stochastic-gradient-descent-scratch-python/

我截取其中一段来讲。这篇文章讲的SGD只能算是标准型，如果想了解更专业的，可以参考R语言的工具包sgd：
https://github.com/airoldilab/sgd/blob/master/README.md

SGD 的两个参数

SGD 有两个参数（对标准型而言）：学习率（Learning Rate）和迭代次数（Epochs）。计算参数是一个比较费时的工作，有点像学英语，一天肯定学不会，每天只能学会一点，这个大概就是学习率。既然忘了，就得反复学，这就是迭代，有些人聪明，学一两年就学会了，有些人差一点，像我学了几十年，还没有训练出一个好的语言模型。

SGD之打铁循环

上图说，SGD有三个循环过程：1、把所有的迭代都循环一遍;2、每次迭代中把所有的训练数据循环一遍;3、每次用到一条训练数据时把所有的参数都更新一遍。

参数是怎么更新的呢？

参数更新依靠误差。误差从哪里来？今天想学100个单词，结果只学会了50个，误差就是没学会的那50个，第二天想把没学会的50个单词学会，结果记下了10个，误差缩小到40个，然后是第三天、第四天，运气好的时候，10天记下100个单词。像我把单词记在大脑内存里，睡前总是忘了存盘，第二天一早发现大脑内存清空了，昨天记的单词就都忘记了，偶尔我还是会存盘的，一年半载之后，还是会记住这100个单词的。

参数更新

每次参数更新除了和误差有关之外，还和学习率有关，而且每个参数是基于特定数据进行更新的，例如这里b1这个参数的更新基于某一输入变量x1，因为是线性模型，所以只有x1，如果是非线性模型，就可能是x1、x2...了。

还有一个特殊参数

还有一个特殊参数，叫做截距或偏差（bias）。这个bias的更新和其他参数的更新类似，只是不依赖任何输入变量。从这个角度讲，这个bias和机器学习里的偏差-方差分解（bias-variance decomposition）是不同的，大家学习的时候，不要混淆了。

有了循环框架和参数更新的策略，我们就能得到下面 SGD的程序。

SGD程序标准型python版

这个程序得在python3上运行，如果在python2运行的话，第一个迭代结束后，程序就结束了。我写了一个类似的R语言脚本，运行后遇到了同样的问题。折腾了很久之后，我问了阿泽，他看了一眼说：用py3。python这事解决了，但是R那个坑还在。

R语言脚本如下所示：

食之无味，弃之可惜

问题应该出在方框中的那三层循环里，稍微改了一下之后，还是把这个坑填了，只是走的路有点长，全局变量和局部变量，总是要在脑子里转几圈才行。

结果和python一样

这就是今天的盒饭版算法之随机梯度下降方法（SGD）。大家可以关注下大洋彼岸的这些博客，可以学英文，学算法，学编程，还可以找出一些小错误，例如这篇博客的程序更像是梯度下降方法，“随机”那部分并没有体现，还有其他小问题，不过用来展示原理的话，这些可以接受。

要不你们也赞赏一下我吧，看能不能凑足一个饭盒。

盒饭版算法之随机梯度下降方法（SGD）

猜你喜欢

热点阅读