Coursera.MachineLearning.Week10

2020-02-22 本文已影响0人小异_Summer

Machine Learning Week10 : Large Scale Machine Learning

Large Scale Machine Learning

1.1 Learning with large Datasets
左侧是高方差，右侧是高偏差；对于高方差来说增大数据集是有效的改进方法，对于高偏差不需要增大数据集。

Learning with large datasets

1.2 Stochastic Gradient Descent【随机梯度下降】

batch gradient descent

随机梯度下降：

随机打乱dataset
循环遍历m个训练样本，用每个训练样本进行θ调整，不需要读入全部的m个数据就已经开始将参数朝着全局最小值方向调整了。

Stochastic gradient descent

随机梯度下降外层循环通常1-10次，有时一次就能达到一个不错的效果；每次更新θ，大多向着cost function最小的方向进行；最后的结果是在全局最优较小的附近范围内。

Stochastic gradient descent

1.3 Mini-Batch Gradient Descent【小批量梯度下降】
有时比随机梯度下降快一些

Mini-batch gradient descent

1.4 Stochastic Gradient Descent Convergence

随机梯度下降算法在每步更新θ前，计算cost(θ，（,）)，每1000次迭代后计算这1000个cost的均值并通过画图观察SGD是否在收敛。

Checking for convergence

左上.红线相对于蓝线学习速率α更小，cost振动频率较低，可能会获得更优的结果，但是与学习速率较大的结果差异一般不大；
右上.红线增大了平均的训练样本数，如从1000改为5000；
左下.蓝线因为噪声太大没有收敛；红线是5000个样本取平均的运行效果，能够看出收敛趋势；粉线也是5000个样本的平均运行效果，但是没有收敛趋势，需要调整学习速率、或者改变特征变量等；
右下.算法在发散，因此需要使用一个较小的学习速率α。
综上，曲线上下振动噪声较大时，可以采用更多数据的平均值；如果曲线上升，可以换一个小点的α值。

Checking for convergence