机器学习--随机梯度下降算法

2018-10-24 本文已影响0人 IT满仓

对于样本数量额非常之多的情况，Batch Gradient Descent（批量梯度下降）算法会非常耗时，因为每次迭代都要便利所有样本，可选用Stochastic Gradient Descent 算法，需要注意外层循环Loop，因为只遍历一次样本，不见得会收敛。

743682-20151126140949671-555319333.png

随机梯度算法就可以用作在线学习了，但是注意随机梯度的结果并非完全收敛，而是在收敛结果处波动的，可能由非线性可分的样本引起来的：

可以有如下解决办法：

1. 动态更改学习速率a的大小，可以增大或者减小

2. 随机选样本进行学习

代码：


import numpyas np

__author__ ='liyan'

X =2 * np.random.rand(100, 1)

y =4 +3 * X + np.random.randn(100, 1)

X_b = np.c_[np.ones((100, 1)), X]

# print(X_b)

n_epochs =500

t0,t1 =5,50

m =100#100个样本

def learning_schedule(t):#学习率逐渐减少

        return t0/(t+t1)

theta = np.random.randn(2,1)

for epochin range(n_epochs):

for iin range(m):#100条数据随机抽取一条

        random_index = np.random.randint(m)# 随机返回0~99数

        xi = X_b[random_index:random_index+1]

        yi = y[random_index:random_index+1]

        gradients =1*xi.T.dot(xi.dot(theta)-yi)#梯度

        #1/m*xi.T.dot(xi.dot(theta)-yi)

        learning_rate = learning_schedule(epoch*m+i)#学习率逐渐减少

        theta = theta-learning_rate*gradients

print(theta)

运行代码，计算得到的结果如下：

image

总结：

概念：随机梯度下降（sgd）
什么是随机梯度下降，怎么随机的呢？
其实就是在求梯度的时候，不再用所有的m个样本数据来计算，而是随机的选择一条数据来计算梯度！
随机梯度下降的好处是什么？缺点是什么？
在求梯度的时候快，迭代次数有可能更多，最终可能落不到全局最优解上
Mini-Batch GD是什么？
就是在求梯度的时候做了一个折中，不用所有的数据，而是随机选择一部分数据来求梯度！
上面代码里面除了随机抽取一条数据来求解梯度，还随着迭代次数的增多，不断减小步长！learning_rate
为什么要不断的调整步长？
就是为了让越接近最优解的时候，调整的幅度越小，避免来回震荡！
如果我们不人为的调小步长，会不会随着迭代的次数增多，调整的幅度自动减小？
调整的幅度取决于谁？却决于学习率和梯度，梯度事实上越接近最优解，梯度的绝对值越小

机器学习--随机梯度下降算法

猜你喜欢

热点阅读