梯度下降解决线性回归

2018-11-09 本文已影响22人 5号船长

梯度下降是机器学习中最核心的优化算法
线性回归一般用于预测，比如股票涨跌

tensorflow的一些操作.png

tensorflow的一些等价操作：

tensorflow的一些等价操作.png

TensorFlow API文档查看方法：
可以去官网在线的文档进行查看，网址为：https://www.tensorflow.org/，点击API选择对应的版本，选择对应的开发语言，就可以进入到API文档列表，或者之间到serach里面进行搜索查询即可。
另一种方法就是直接在终端里面进行文档的查看：

终端查看文档方法.png

python
source activate tensorflow-two
help(tf.Tensor)
help(tf.nn.relu)

然后就可以在终端中看到具体文档了

文档内容.png

下面是一个例子：

#-*- coding: UTF-8 -*-

import numpy as np
import matplotlib as plt
import tensorflow as tf

#构建数据
points_num = 100
vectors = []

#用numpy的正态随机分布函数生成100个点
#这些点的（x，y）坐标值对应线性方程 y = 0.1 * x + 0.2
#权重（weight）是0.1 ，偏差（bias）是0.2
for i in xrange(points_num):
    x1 = np.random.normal(0.0,0.66)
    y1 = 0.1 * x1 + 0.2 + np.rangom.normal(0.0,0.04)
    vectors.append([x1,y1])
    
x_data = [v[0] for v in vectors]
y_data = [v[1] for v in vectors]

#展示所有100个随机数据点
plt.plot(x._data, y_data, 'r*', label="data")
plt.title("线性回归")
plt.legend()
plt.show()

#构建线性回归模型
W = tf.Variable(tf.random_uniform([1], -1.0, 1.0)) #初始化W
b = tf.Variable(tf.zeros([1])) #初始化 b
y = W * x_data + b

#定义损失函数
#对 Tensor 对所有维度计算((y - y_data ^ 2)) 之和 / N

lose = tf.reduce_mean(tf.square(y - y_data))

#用梯度下降对优化器来优化我们对 loss function
optimizer = tf.train.GradientDescentOptimizer(0.5)
train = optimizer.minimize(loss)

#创建会话
sess = tf.Session()

#初始化数据流图中对所有变量
init = tf.global_variables_initializer()
sess.run(init)

#训练 20 步
for step in xrange(20):
    sess.run(train)
    print("Step=%d, Loss=%f, [Weight=%f Bias=%f]") \
    % (step, sess.run(loss), sess.run(W), sess.run(b))
    
#绘制所有对点并且绘制出最佳拟合对直线
plt.plot(x._data, y_data, 'r*', label="data")
plt.title("线性回归")
plt.plot(x_data, sess.run(W) * x_data + sess.run(b), label="Fitted line")
plt.legend()
plt.xlabel('x')
plt.ylabel('y')
plt.show()

#关闭会话
sess.close()

下面简单介绍一下

随机梯度下降算法
SGD的思想是更新每一个参数时都使用一个样本来进行更新。每次更新参数都只使用一个样本，进行多次更新。这样在样本量很大的情况下，可能只用到其中的一部分样本就能得到最优解了。
但是，SGD伴随的一个问题是噪音较BGD要多，使得SGD并不是每次迭代都向着整体最优化方向。

特点：

训练速度快
准确度下降，并不是最优解，不易于并行实现

小批量梯度下降算法
MBGD的算法思想就是在更新每一参数时都使用一部分样本来进行更新。

相对于随机梯度下降，Mini-batch梯度下降降低了收敛波动性，即降低了参数更新的方差，使得更新更加稳定。相对于批量梯度下降，其提高了每次学习的速度。并且其不用担心内存瓶颈从而可以利用矩阵运算进行高效计算。一般而言每次更新随机选择[50,256]个样本进行学习，但是也要根据具体问题而选择，实践中可以进行多次试验，选择一个更新速度与更次次数都较适合的样本数。mini-batch梯度下降可以保证收敛性，常用于神经网络中。

补充
在样本量较小的情况下，可以使用批量梯度下降算法，样本量较大的情况或者线上，可以使用随机梯度下降算法或者小批量梯度下降算法。

在机器学习中的无约束优化算法，除了梯度下降以外，还有前面提到的最小二乘法，此外还有牛顿法和拟牛顿法。

梯度下降法和最小二乘法相比，梯度下降法需要选择步长，而最小二乘法不需要。梯度下降法是迭代求解，最小二乘法是计算解析解。如果样本量不算很大，且存在解析解，最小二乘法比起梯度下降法要有优势，计算速度很快。但是如果样本量很大，用最小二乘法由于需要求一个超级大的逆矩阵，这时就很难或者很慢才能求解解析解了，使用迭代的梯度下降法比较有优势。

梯度下降法和牛顿法/拟牛顿法相比，两者都是迭代求解，不过梯度下降法是梯度求解，而牛顿法/拟牛顿法是用二阶的海森矩阵的逆矩阵或伪逆矩阵求解。相对而言，使用牛顿法/拟牛顿法收敛更快。但是每次迭代的时间比梯度下降法长。

梯度下降解决线性回归

下面简单介绍一下

猜你喜欢

热点阅读