第六章深度前馈网络

2017-10-26 本文已影响0人 QQYang

6.2 基于梯度的学习

神经网络的非线性导致代价函数变成了非凸函数，意味着基于梯度的迭代优化不一定能收敛到全局最优。

所以，对代价函数的优化结果对于参数的初始值很敏感，需要将所有权重的初始化为小的随机数，偏置初始化为零或者小的正值

代价函数

（code:$\mathit{J(\theta )}=-\mathbb{E}_{x,y\sim \hat{p}_{data}}log\,p_{model}(y|x)$）

中的期望所对应的分布是训练数据集的分布，P model的分布是神经网络所表示的分布

因为log容易饱和，这里有两个办法来避免：1.取-log，2.输出单元具有指数形式，能够抵消log

最大似然函数在实践中常常没有最小值，因为输出单元需要取+∞、-∞或0时才能让最大似然函数取到最小值