Day5 Chapter5.9-5.10

2019-08-20 本文已影响0人 ForCLovC

5.9 随机梯度下降

1. 机器学习算法中的代价函数通常可以分解成每个样本的代价函数的总和

$J(\theta)=E_{x,y\sim{\hat{p}_{data}}}L(x,y,\theta)=\frac{1}{m}\sum^{m}_{i=1}L(x^{(i)},y^{(i)},\theta)$

2. 对于相加而成的代价函数，梯度下降则要计算 $\Delta_{\theta}{J(\theta)}$ :

$\Delta_{\theta} J(\theta)=\frac{1}{m}\sum^{m}_{i=1}\Delta_{\theta}L(x^{(i)},y^{(i)},\theta)$ 也就是计算每一次下降的幅度的均值，也就是期望

梯度是期望，通常通过小规模的样本（minibatch，也就是编程中的batch_size）近似估计

3. 这样的话小规模的样本的梯度则变成：

$g=\frac{1}{m’}\sum^{m}_{i=1}\Delta_{\theta}L(x^{(i)},y^{(i)},\theta)$ （两个m都是m'，因为这里的编辑器问题）

4. 因此，随机梯度下降（SGD）算法就变成：

$\theta=\theta-\alpha g$ ( $\alpha$ 是学习率，也就是随机梯度下降的步幅，经过很多次SGD后， $\theta$ 会收敛

随机梯度下降是在大规模数据上训练大型线性模型的主要方法

5.10 构建机器学习算法

几乎所有的深度学习算法都可以被描述为一个相当简单的配方：

特定的数据集： 比如X 和 y 构成的数据集

代价函数： 比如线性回归算法的代价函数： $J(w,b)=-E_{x,y\sim\hat{p}_{data}}=log\ p_{model}{(y\ |\ x})$

模型： 比如上述的代价函数中模型为 $p_{model}{(y\ |\ x})=N(y;x^Tw+b,1)$ (标准正态分布)

优化过程： 可以定义为求解代价函数梯度为零的正规方程（梯度为零即差值为零，即收敛）

附加项（非必须含有）： 如正则化项