2018-07-12

2018-07-18 本文已影响0人 willse

《神经网络和深度学习》笔记

第一章

权重：相应输入对于输出重要性的实数
偏置：让神经元输出1有多容易的估算

1. 感知器

线性神经元，σ（Z）=Z 和与非门类似，输出只有0或1

image.png

2. S型神经元

非线性神经元逻辑神经元

σ（Z）=1/（1+e^-z）或

image.png

3. 神经网络架构

image.png
最左边 输入层 其中的神经元为输入神经元；最右边 输出层、输出神经元。中间层，称为隐藏层
上一层的输出作为下一层的输入叫前馈神经网络，信息总是向前传播，从不反向回馈。
还有递归神经网络，其中的神经元在休眠前会有一段有限的时间内保持激活状态。这种激活状态可以刺激其他神经元，使其随后被激活并同样保持一段有限的时间。这样会导致更多的神经元被激活，随着时间的推移，我们得到一个级联的神经元激活系统，因为一个神经元的输出只在一段时间后而不是即刻影响他的输入，在这个模型中回路并不会引起问题。

4.梯度下降

（1）代价函数

二次代价函数
w表示左右的网络中权重的集合，b是所有的偏置，n是训练输入数据的个数，a是表示当输入为x时输出的向量，求和在总的训练输入x上进行。||v|| 表示向量v的模。训练算法的目的是最小化关于权重和偏置的代价函数C(w,b)。
（2）梯度下降

image.png
我们想要找到C的全局最小值。想象一个小球从山谷的斜坡滚下来。精确一下，在v1和v2方向分别将球体移动一个很小的量，即Δv1和Δv2时

image.png
寻找一种选择Δv1和Δv2的方法，使ΔC为负，即让小球滚落，定义

image.png
定义C的梯度为偏导数的向量

image.png
则

ΔC方程.png
取

（10）.png
η为一个很小的正数(称为学习速率)带入ΔC方程中得

image.png 这可以保证ΔC≤0，按照这个（方程10）规则去改变V，C就会一直减小，不会增加。用方程10来计算ΔV，来移动球的位置v：

11.png
假设我们努力改变Δv来让C尽可能减小，相当于最小化

image.png
限制步长为小的固定值，即

image.png
当步长固定时，我们要找到使得C减小最大的下降方向。根据柯西-施瓦兹不等式，

image.png
用C的梯度向量的相应的分量来写梯度下降的更新规则，

梯度下降更新规则
回顾二次代价函数

image.png
即，它是遍及每个训练样本代价

image.png
的品均值，在实践中，为了计算C的梯度，我们要为每个训练输入x单独的计算梯度值

image.png
这样训练的数据过大，很花费时间，使学习变得相当缓慢。

上一篇下一篇

猜你喜欢

热点阅读