第三章浅层神经网络

2019-09-29 本文已影响0人一叶知否

1.神经网络概览

图3.1 神经网络概览

如图3.1，logistic回归模型的流程就是，输入特征x、参数w和参数b，然后算出z，再使用sigmoid函数算出a即是 $y^,$ ，然后计算损失函数L，这就是神经网络。可以把很多sigmoid单元堆叠起来构成一个神经网络，每个单元都对应一个z运算和a运算。用[1]表示第一层，[i]表示第i层，第i层的输出即为第i+1层输入，逐层计算z和a，最后计算L，当然也会有反向计算求导过程。

2.神经网络的表示

图3.2 神经网络的表示

如图3.2，先看看一个隐藏层的情况，第0层为输入层，输出特征集；第1层为隐藏层，因为在训练过程中我们看不到（或者说不需要看到）隐藏层的值，所以称之为隐藏层；第2层为输出层，输出预测值 $y^,$ 。每一层输出值称之为激活值a[i]，一般不把输入层看成一个层，所以这是个双层神经网络。

3.计算神经网络的输出

图3.3 神经网络输出计算

图3.4 神经网络输出计算详细步骤

图3.5 神经网络输出计算完整步骤

神经网络输出的计算其实是同一步骤重复很多遍的过程。单隐藏层神经网络中，输入层输入特征x即 $a^{[0]}$ （ $a^{[0]}_1$ ， $a^{[0]}_2$ ， $a^{[0]}_3$ ），接着第一层计算出 $z^{[1]}$ （ $z^{[1]}_1$ ， $z^{[1]}_2$ ， $z^{[1]}_3$ ， $z^{[1]}_4$ ）和 $a^{[1]}$ （ $a^{[1]}_1$ ， $a^{[1]}_2$ ， $a^{[1]}_3$ ， $a^{[1]}_4$ ），把 $a^{[1]}$ 传递给第二层，第二层重复第一层的步骤，把 $a^{[1]}$ 作为输入计算出 $z^{[2]}$ 和 $a^{[2]}$ ，最后得到预测值 $y^,$ = $a^{[2]}$ 。假设输入特征x形状为（3,1），则 $W^{[1]}$ 形状为（4,3）， $b^{[1]}$ 形状为（4,1）， $a^{[1]}$ 形状为（4,1）， $z^{[2]}$ 形状为（1,1）， $a^{[2]}$ 形状为（1,1）。

4.多个样本的向量化

上面计算了一个输入样本的输出，下面用向量化方式计算多个输入样本的的输出。

图3.6 向量化

如图3.6，描述了多个样本向量化过程，用上标（i）表示第几个样本。

5.向量化实现的解释

图3.7 向量化详细图形过程

如图3.7，假设有3个样本，紫色代表第1个样本，绿色代表第2个样本，黄色代表3个样本，暂且忽略b，由X计算得到Z再利用广播机制加上b，计算结果和一个个样本计算是一致的。

6.激活函数

要搭建一个神经网络，可以在隐藏层选择使用什么激活函数，也可以在输出单元选择使用什么激活函数，这些可以根据情况选择，不同层激活函数可以不一样。在目前为止，我们一直用的都是sigmoid作为激活函数，但有时其他激活函数效果会更好。

图3.8 选择不同的激活函数

如图3.8， $a^{[1]}$ =σ( $z^{[1]}$ )改成 $a^{[1]}$ = $g^{[1]}$ ( $z^{[1]}$ )，g代表非线性函数，并不一定是σ(sigmoid函数)。在使用sigmoid作为激活函数的场合，一般使用tanh函数代替，tanh函数表现往往比sigmoid函数更好。有一特例就是当输出必须是0< $y^,$ <1，则使用sigmoid函数，sigmoid函数值域是（0，1）。