梯度下降解决线性回归

2018-11-09  本文已影响22人  5号船长

梯度下降是机器学习中最核心的优化算法
线性回归一般用于预测,比如股票涨跌


tensorflow的一些操作.png

tensorflow的一些等价操作:


tensorflow的一些等价操作.png

TensorFlow API文档查看方法:
可以去官网在线的文档进行查看,网址为:https://www.tensorflow.org/,点击API选择对应的版本,选择对应的开发语言,就可以进入到API文档列表,或者之间到serach里面进行搜索查询即可。
另一种方法就是直接在终端里面进行文档的查看:

终端查看文档方法.png
python
source activate tensorflow-two
help(tf.Tensor)
help(tf.nn.relu)

然后就可以在终端中看到具体文档了


文档内容.png

下面是一个例子:

#-*- coding: UTF-8 -*-

import numpy as np
import matplotlib as plt
import tensorflow as tf

#构建数据
points_num = 100
vectors = []

#用numpy的正态随机分布函数生成100个点
#这些点的(x,y)坐标值对应线性方程 y = 0.1 * x + 0.2
#权重(weight)是0.1 ,偏差(bias)是0.2
for i in xrange(points_num):
    x1 = np.random.normal(0.0,0.66)
    y1 = 0.1 * x1 + 0.2 + np.rangom.normal(0.0,0.04)
    vectors.append([x1,y1])
    
x_data = [v[0] for v in vectors]
y_data = [v[1] for v in vectors]

#展示所有100个随机数据点
plt.plot(x._data, y_data, 'r*', label="data")
plt.title("线性回归")
plt.legend()
plt.show()

#构建线性回归模型
W = tf.Variable(tf.random_uniform([1], -1.0, 1.0)) #初始化W
b = tf.Variable(tf.zeros([1])) #初始化 b
y = W * x_data + b

#定义损失函数
#对 Tensor 对所有维度计算((y - y_data ^ 2)) 之和 / N

lose = tf.reduce_mean(tf.square(y - y_data))

#用梯度下降对优化器来优化我们对 loss function
optimizer = tf.train.GradientDescentOptimizer(0.5)
train = optimizer.minimize(loss)

#创建会话
sess = tf.Session()

#初始化数据流图中对所有变量
init = tf.global_variables_initializer()
sess.run(init)

#训练 20 步
for step in xrange(20):
    sess.run(train)
    print("Step=%d, Loss=%f, [Weight=%f Bias=%f]") \
    % (step, sess.run(loss), sess.run(W), sess.run(b))
    
#绘制所有对点并且绘制出最佳拟合对直线
plt.plot(x._data, y_data, 'r*', label="data")
plt.title("线性回归")
plt.plot(x_data, sess.run(W) * x_data + sess.run(b), label="Fitted line")
plt.legend()
plt.xlabel('x')
plt.ylabel('y')
plt.show()

#关闭会话
sess.close()
下面简单介绍一下

随机梯度下降算法
SGD的思想是更新每一个参数时都使用一个样本来进行更新。每次更新参数都只使用一个样本,进行多次更新。这样在样本量很大的情况下,可能只用到其中的一部分样本就能得到最优解了。
但是,SGD伴随的一个问题是噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。

特点:

小批量梯度下降算法
MBGD的算法思想就是在更新每一参数时都使用一部分样本来进行更新。

相对于随机梯度下降,Mini-batch梯度下降降低了收敛波动性,即降低了参数更新的方差,使得更新更加稳定。相对于批量梯度下降,其提高了每次学习的速度。并且其不用担心内存瓶颈从而可以利用矩阵运算进行高效计算。一般而言每次更新随机选择[50,256]个样本进行学习,但是也要根据具体问题而选择,实践中可以进行多次试验,选择一个更新速度与更次次数都较适合的样本数。mini-batch梯度下降可以保证收敛性,常用于神经网络中。

补充
在样本量较小的情况下,可以使用批量梯度下降算法,样本量较大的情况或者线上,可以使用随机梯度下降算法或者小批量梯度下降算法。

在机器学习中的无约束优化算法,除了梯度下降以外,还有前面提到的最小二乘法,此外还有牛顿法和拟牛顿法。

梯度下降法和最小二乘法相比,梯度下降法需要选择步长,而最小二乘法不需要。梯度下降法是迭代求解,最小二乘法是计算解析解。如果样本量不算很大,且存在解析解,最小二乘法比起梯度下降法要有优势,计算速度很快。但是如果样本量很大,用最小二乘法由于需要求一个超级大的逆矩阵,这时就很难或者很慢才能求解解析解了,使用迭代的梯度下降法比较有优势。

梯度下降法和牛顿法/拟牛顿法相比,两者都是迭代求解,不过梯度下降法是梯度求解,而牛顿法/拟牛顿法是用二阶的海森矩阵的逆矩阵或伪逆矩阵求解。相对而言,使用牛顿法/拟牛顿法收敛更快。但是每次迭代的时间比梯度下降法长。

上一篇下一篇

猜你喜欢

热点阅读