深度学习基础知识学习笔记

2019-03-08  本文已影响0人  qiufeng1ye

教材选用《动手学深度学习》,李沐等著;


单层神经网络

单层神经网络是最简单的神经网络,有线性回归(linear-regression)和Softmax回归(softmax-regression)。

线性回归

线性回归的基本要素:模型(model)、模型训练、模型预测。

  1. 线性回归模型yˆ = x1w1 + x2w2 + b,其中 w1, w2 是权重(weight),b 是偏差(bias),且均为标量。
  2. 模型训练的要素有:训练数据、损失函数、优化算法。
  1. 模型预测得到的是最优解的一个近似,用于估算训练数据集以外的解,也称为模型推断或模型测试。

线性回归的表示方法:神经网络图和矢量计算表达式。


线性回归神经网络图

神经⽹络图隐去了模型参数权重和偏差。

Softmax回归

线性回归模型适⽤于输出为连续值的情景,对于离散值预测问题,我们可以使⽤诸如 softmax 回归在内的分类模型,softmax 回归的输出单元从⼀个变成了多个,且引⼊了 softmax 运算使得输出更适合离散值的预测和训练。

softmax 回归神经网络图
softmax运算符解决了直接使用输出层的问题,它通过运算符将输出值转化为值为正且和为 1 的概率分布。
在softmax回归中,为了更适合衡量两个概率分布差异,通常使用交叉熵(cross entropy)作为损失函数。为了理解交叉熵参阅了以下资料:
1.交叉熵在信息论中的解释 - 知乎
2.交叉熵和最大似然估计 - 简书
3.从最大似然估计看交叉熵 - 博客园
4.最大似然估计在统计学中的解释 - 马同学
从中看出,虽然领域不同交叉熵最大似然估计(MLE)有着异曲同工之处。

多层感知机

带多层感知机的神经网络图

为了使神经网络引入非线性特性,在隐藏层中的神经元要使用激活函数(Activation functions),常用的激活函数包括 ReLU 函数、sigmoid 函数和 tanh 函数。

模型选择

训练误差和泛化误差

模型在训练集上更准确时,在测试集上不一定准确。这是因为误差分为在训练集上的训练误差(training error)和测试集上的泛化误差(generalization error),机器学习模型应关注降低泛化误差。
在机器学习中,评估若⼲候选模型的表现并从中选择模型的过程称为模型选择(model selection),我们预留一部分在训练数据集和测试数据集以外的数据来进行模型选择,这部分数据被称为验证集(validation set)。
为了有效利用验证集,常用K 折交叉验证(K-fold cross-validation),先把原始训练数据集分割成 K 个不重合的⼦数据集,然后做 K 次模型训练和验证。每⼀次,我们使⽤⼀个⼦数据集验证模型,并使⽤其他 K − 1 个⼦数据集来训练模型。

⽋拟合和过拟合

模型训练中经常出现两类典型问题,⼀类是模型⽆法得到较低的训练误差,我们将这⼀现象称作⽋拟合(underfitting),另⼀类是模型的训练误差远小于它在测试数据集上的误差,我们称该现象为过拟合(overfitting)。虽然有很多因素可能导致这两种拟合问题,在这⾥我们重点讨论两个因素:模型复杂度训练数据集⼤小

对过拟合问题的常⽤⽅法有权重衰减(weight decay)和丢弃法(dropout)。

权重衰减

权重衰减等价于L2 范数正则化(regularization),L2 范数正则化在模型原损失函数基础上添加 L2 范数惩罚项,从而得到训练所需要最小化的函数。L2 范数惩罚项指的是模型权重参数每个元素的平⽅和与⼀个正的常数的乘积。L2 范数正则化令权重 w1 和 w2 先⾃乘小于 1 的数,再减去不含惩罚项的梯度。因此,L2范数正则化⼜叫权重衰减。

丢弃法

除了权重衰减以外,深度学习模型常常使⽤丢弃法(dropout)来应对过拟合问题。由于在训练中隐藏层神经元的丢弃是随机的,从而在训练模型时起到正则化的作⽤,并可以⽤来应对过拟合。在测试模型时,我们为了拿到更加确定性的结果,⼀般不使⽤丢弃法。

正向传播、反向传播和计算图

正向传播是指对神经网络沿着从输入层到输出层的顺序,依次计算并存储模型的中间变量(包括输出)。

正向传播计算图
上述正向传播图中,x为特征,z为中间变量,h为隐藏层变量,o为输入层变量,L为单个样本损失项,s为正则化项,J=L+s为给定数据样本的目标函数(正向传播)。

反向传播指的是计算神经网络参数梯度的方法。总的来说,反向传播依据微积分中的链式法则,沿着从输出层到输入层的顺序,依次计算并存储目标函数有关神经网络各层的中间变量以及参数的梯度。

在训练深度学习模型时,正向传播和反向传播之间相互依赖。在模型参数初始化完成后,交替地进行正向传播和反向传播,并根据反向传播计算的梯度迭代模型参数。

数值稳定性和模型初始化

深度模型有关数值稳定性的典型问题是衰减(vanishing)和爆炸(explosion)。当神经网络的层数较多时,模型的数值稳定性容易变差。举个例子,假设输入和所有层的权重参数都是标量,比如权重参数为 0.2 和 5,多层感知机的第 30 层输出为输入 𝑋 分别与 0.230≈1×10−21 (衰减)和 530≈9×1020 (爆炸)的乘积。
在神经网络中,我们通常需要随机初始化模型参数。如果将每个隐藏单元的参数都初始化为相等的值,这些参数在使用基于梯度的优化算法迭代后值依然相等,这种情况下,无论隐藏单元有多少,隐藏层本质上只有 1 个隐藏单元在发挥作用。因此,通常将神经网络的模型参数,特别是权重参数进行随机初始化。

上一篇下一篇

猜你喜欢

热点阅读