梯度下降解决线性回归
梯度下降是机器学习中最核心的优化算法
线性回归一般用于预测,比如股票涨跌
tensorflow的一些操作.png
tensorflow的一些等价操作:
tensorflow的一些等价操作.png
TensorFlow API文档查看方法:
可以去官网在线的文档进行查看,网址为:https://www.tensorflow.org/,点击API选择对应的版本,选择对应的开发语言,就可以进入到API文档列表,或者之间到serach里面进行搜索查询即可。
另一种方法就是直接在终端里面进行文档的查看:
python
source activate tensorflow-two
help(tf.Tensor)
help(tf.nn.relu)
然后就可以在终端中看到具体文档了
文档内容.png
下面是一个例子:
#-*- coding: UTF-8 -*-
import numpy as np
import matplotlib as plt
import tensorflow as tf
#构建数据
points_num = 100
vectors = []
#用numpy的正态随机分布函数生成100个点
#这些点的(x,y)坐标值对应线性方程 y = 0.1 * x + 0.2
#权重(weight)是0.1 ,偏差(bias)是0.2
for i in xrange(points_num):
x1 = np.random.normal(0.0,0.66)
y1 = 0.1 * x1 + 0.2 + np.rangom.normal(0.0,0.04)
vectors.append([x1,y1])
x_data = [v[0] for v in vectors]
y_data = [v[1] for v in vectors]
#展示所有100个随机数据点
plt.plot(x._data, y_data, 'r*', label="data")
plt.title("线性回归")
plt.legend()
plt.show()
#构建线性回归模型
W = tf.Variable(tf.random_uniform([1], -1.0, 1.0)) #初始化W
b = tf.Variable(tf.zeros([1])) #初始化 b
y = W * x_data + b
#定义损失函数
#对 Tensor 对所有维度计算((y - y_data ^ 2)) 之和 / N
lose = tf.reduce_mean(tf.square(y - y_data))
#用梯度下降对优化器来优化我们对 loss function
optimizer = tf.train.GradientDescentOptimizer(0.5)
train = optimizer.minimize(loss)
#创建会话
sess = tf.Session()
#初始化数据流图中对所有变量
init = tf.global_variables_initializer()
sess.run(init)
#训练 20 步
for step in xrange(20):
sess.run(train)
print("Step=%d, Loss=%f, [Weight=%f Bias=%f]") \
% (step, sess.run(loss), sess.run(W), sess.run(b))
#绘制所有对点并且绘制出最佳拟合对直线
plt.plot(x._data, y_data, 'r*', label="data")
plt.title("线性回归")
plt.plot(x_data, sess.run(W) * x_data + sess.run(b), label="Fitted line")
plt.legend()
plt.xlabel('x')
plt.ylabel('y')
plt.show()
#关闭会话
sess.close()
下面简单介绍一下
随机梯度下降算法
SGD的思想是更新每一个参数时都使用一个样本来进行更新。每次更新参数都只使用一个样本,进行多次更新。这样在样本量很大的情况下,可能只用到其中的一部分样本就能得到最优解了。
但是,SGD伴随的一个问题是噪音较BGD要多,使得SGD并不是每次迭代都向着整体最优化方向。
特点:
- 训练速度快
- 准确度下降,并不是最优解,不易于并行实现
小批量梯度下降算法
MBGD的算法思想就是在更新每一参数时都使用一部分样本来进行更新。
相对于随机梯度下降,Mini-batch梯度下降降低了收敛波动性,即降低了参数更新的方差,使得更新更加稳定。相对于批量梯度下降,其提高了每次学习的速度。并且其不用担心内存瓶颈从而可以利用矩阵运算进行高效计算。一般而言每次更新随机选择[50,256]个样本进行学习,但是也要根据具体问题而选择,实践中可以进行多次试验,选择一个更新速度与更次次数都较适合的样本数。mini-batch梯度下降可以保证收敛性,常用于神经网络中。
补充
在样本量较小的情况下,可以使用批量梯度下降算法,样本量较大的情况或者线上,可以使用随机梯度下降算法或者小批量梯度下降算法。
在机器学习中的无约束优化算法,除了梯度下降以外,还有前面提到的最小二乘法,此外还有牛顿法和拟牛顿法。
梯度下降法和最小二乘法相比,梯度下降法需要选择步长,而最小二乘法不需要。梯度下降法是迭代求解,最小二乘法是计算解析解。如果样本量不算很大,且存在解析解,最小二乘法比起梯度下降法要有优势,计算速度很快。但是如果样本量很大,用最小二乘法由于需要求一个超级大的逆矩阵,这时就很难或者很慢才能求解解析解了,使用迭代的梯度下降法比较有优势。
梯度下降法和牛顿法/拟牛顿法相比,两者都是迭代求解,不过梯度下降法是梯度求解,而牛顿法/拟牛顿法是用二阶的海森矩阵的逆矩阵或伪逆矩阵求解。相对而言,使用牛顿法/拟牛顿法收敛更快。但是每次迭代的时间比梯度下降法长。