从 0 开始机器学习 - 深入浅出神经网络基础

2020-05-08 本文已影响0人登龙zZ

今天跟大家分享下我学习神经网络的一些个人总结，希望能通过这篇博客帮助新手直接搞懂神经网络！

一、神经网络解决什么问题？

之前跟大家分享过多项式回归预测房价和逻辑回归分类数据的例子，在这两个问题中我们假设问题的输入特征很少：

预测房价的输入特征：卧室数量、房屋面积、房屋楼层
逻辑回归分类数据的输入特征：2 类数据，即 2 分类问题

在预测房价的例子中，我们的假设函数有 3 个输入特征：

$h_\theta(x) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 +\theta_3x_3$

可是在实际的机器学习应用中，要解决的问题通常有很多很多特征（比如图像有上百万个像素点作为输入特征），这时假设函数就变为非常复杂的非线性函数：

$h_\theta(x) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + \theta_3x_1x_2 + \theta_4x_1x_3 + ... \theta_nx_1x_n + ...$

这种类型的非线性假设函数组合的特征会非常多，以至于用普通的线性回归和逻辑回归算法计算会很慢，效率低下，所以为了解决复杂的非线性问题，科学家们设计出了神经网络。

神经网络的作用就是在在保证计算效率的前提下解决复杂的、有非常多输入特征的非线性问题，这包括分类问题和回归问题。

比如预测一个图像中动物的类别是猫还是狗，对于人来说很容易，可是要让机器像人一样识别猫狗可不容易，而神经网络就具备这种识别能力，是不是很神奇呢？

下面就来正式学习神经网络的基础，登龙带你由浅入深一步一步推导，非常容易，千万不要被网络结构图吓到哈 = =！

二、神经元模型

2.1 大脑中的神经元

在学习神经网络之前，先来看看单个神经元是如何工作的。

在生物课上，我们知道人类的大脑中含有处理信息的神经网络，而神经网络又是由非常多单个神经元连接而成，每个神经元可以看做是一个单独的处理单元，单个神经元结构图如下：

image

那么既然是处理单元，肯定有输入和输出，所以科学家们给神经元结构做了如下定义：

树突（数据输入）：每个神经元通过树突来接收一个或多个其他神经元的轴突输出
轴突（数据输出）：每个神经元的轴突能输出信息，来作为另一个神经元的树突输入

在神经元之间数据的传递是通过微弱的电流，术语叫「动作电位」来传递的，这里就不展开解释了。

关于单个神经元了解这些足够了，接着来看下机器学习中的神经元是怎样定义的。

2.2 人工神经元模型（感知器）

科学家们通过模拟人脑中的神经元结构，设计出了能在计算机中表示的单个人工神经元，结构如下：

image

我来解释下这个结构：

$x_1 ... x_3$ ：神经元的输入，类似人脑神经元的树突
$x_0 = 1$ ：人为加上的偏置单元，值是常数，以后会介绍它的作用
$w_0 ... w_3$ ：偏置单元和输入单元的权重值，可以理解为人脑神经元之间「动作电位」传递对当前神经元的影响大小
$sum$ ：对输入值和权重做加权求和，可以理解为人脑神经元对所有的树突传来的信息做加权处理
$g(x)$ ：激活函数，用来确定该神经元的输出，相当于人脑神经元的细胞核来决定产生什么信息输出到轴突上

可以看出人工设计的神经元基本就是模仿了人脑神经元的结构，只不过多了一个偏置单元 $x_0$ ，为了简化表示，我们通常把 $sum$ 和 $g(x)$ 这两步放在一起处理，逻辑不变，只是改变了结构图，方便画图表示：

image

结构定义好了之后，就要用程序来把这个神经元写出来，如果把这些变量和权重挨个定义一遍再做运算，那会非常麻烦，因为你的输入参数可能会非常多，导致运算速度也会降低。

所以科学家们把上面的神经元用向量表示出来，方便计算机运算：

$w$ 定义为行向量： $w = [w_1 \ w_2 \ w_3]$
$x$ 定义为列向量： $x = [x_1 \ x_2 \ x_3]^T$

这样 $w * x$ 就可以等价于加权求和了：

image

注意这里没有把偏置单元 $x_0 = 1$ 加上，因为它不作为输入特征，我们单独加上 $x_0w_0 = 1 * w_0$ ，这样就跟单独计算等价了：

$wx + 1 * w_0 = x_0w_0 + x_1w_1 + x_2w_2 + x_3w_3$

然后再作为激活函数 $g$ 的输入，得到输出 $z$ ：

$z = g(wx + 1 * w_0)$

这样就用向量表示了单个神经元的计算，是不是很容易呀，要时刻注意 $x_0 = 1$ 哦！

三、两层神经网络

3.1 大脑中的两层神经网络

这是大脑中 2 个神经元的连接图：

image

可以看到：

上面神经元的轴突（输出）连接到下面神经元的树突（输入）
一个神经元可以有多个树突接收不同输入
一个神经元也可以有多个轴突产生输出

根据这个生物连接，科学家设计出了经典的 2 层神经网络。

3.2 两层人工神经网络

这是 2 层神经网络从下到上的结构：

image

还有一种从左到右的结构：

image

我更习惯用从左到右的结构：

输入层：最左边的一层，相当于多个树突
中间层（隐藏层）：产生更高级的特征，传递到下一层
输出层：最右边的一层相当于轴突，实际上可以有多个输出
偏置单元：除了最后的输出层，前面的每一层都加一个偏置单元（ $x_0$ 和 $a_0^{(2)}$ ）

同样我们也需要用向量化公式计算这个网络的输出，不过因为这个网络变量较多，所以我们先来定义以下符号的表示：

$a_i^{(j)}$ ：代表第 $j$ 层的第 $i$ 个激活单元，比如 $a_2^{(2)}$ 为第二层第二个激活单元
$W^{(j)}$ ：表示第 $j$ 层传递到下一层即 $j + 1$ 层的权重矩阵，行数为 $j + 1$ 层激活单元（不包含偏置）数量，列数为第 $j$ 层激活单元（包含偏置）数量，比如 $W^{(1)}$ 大小为 3（ $a_1^{(2)} -> a_3^{(2)}$ ） X 4（ $x_0 -> x_3$ ）
$W_{ij}^{(j)}$ ：权重矩阵的单个元素，比如 $W_{10}^{(1)}$ 表示第 1 层到第二层的权重矩阵中第一个元素，这个矩阵后面会带着大家写出来