机器学习和人工智能入门

从 0 开始机器学习 - 深入浅出神经网络基础

2020-05-08  本文已影响0人  登龙zZ

今天跟大家分享下我学习神经网络的一些个人总结,希望能通过这篇博客帮助新手直接搞懂神经网络!

一、神经网络解决什么问题?

之前跟大家分享过多项式回归预测房价和逻辑回归分类数据的例子,在这两个问题中我们假设问题的输入特征很少:

在预测房价的例子中,我们的假设函数有 3 个输入特征:

h_\theta(x) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 +\theta_3x_3

可是在实际的机器学习应用中,要解决的问题通常有很多很多特征(比如图像有上百万个像素点作为输入特征),这时假设函数就变为非常复杂的非线性函数:

h_\theta(x) = \theta_0x_0 + \theta_1x_1 + \theta_2x_2 + \theta_3x_1x_2 + \theta_4x_1x_3 + ... \theta_nx_1x_n + ...

这种类型的非线性假设函数组合的特征会非常多,以至于用普通的线性回归和逻辑回归算法计算会很慢,效率低下,所以为了解决复杂的非线性问题,科学家们设计出了神经网络。

神经网络的作用就是在在保证计算效率的前提下解决复杂的、有非常多输入特征的非线性问题,这包括分类问题和回归问题。

比如预测一个图像中动物的类别是猫还是狗,对于人来说很容易,可是要让机器像人一样识别猫狗可不容易,而神经网络就具备这种识别能力,是不是很神奇呢?

下面就来正式学习神经网络的基础,登龙带你由浅入深一步一步推导,非常容易,千万不要被网络结构图吓到哈 = =!

二、神经元模型

2.1 大脑中的神经元

在学习神经网络之前,先来看看单个神经元是如何工作的。

在生物课上,我们知道人类的大脑中含有处理信息的神经网络,而神经网络又是由非常多单个神经元连接而成,每个神经元可以看做是一个单独的处理单元,单个神经元结构图如下:

image

那么既然是处理单元,肯定有输入和输出,所以科学家们给神经元结构做了如下定义:

在神经元之间数据的传递是通过微弱的电流,术语叫「动作电位」来传递的,这里就不展开解释了。

关于单个神经元了解这些足够了,接着来看下机器学习中的神经元是怎样定义的。

2.2 人工神经元模型(感知器)

科学家们通过模拟人脑中的神经元结构,设计出了能在计算机中表示的单个人工神经元,结构如下:

image

我来解释下这个结构:

可以看出人工设计的神经元基本就是模仿了人脑神经元的结构,只不过多了一个偏置单元 x_0,为了简化表示,我们通常把 sumg(x) 这两步放在一起处理,逻辑不变,只是改变了结构图,方便画图表示:

image

结构定义好了之后,就要用程序来把这个神经元写出来,如果把这些变量和权重挨个定义一遍再做运算,那会非常麻烦,因为你的输入参数可能会非常多,导致运算速度也会降低。

所以科学家们把上面的神经元用向量表示出来,方便计算机运算:

这样 w * x 就可以等价于加权求和了:

image

注意这里没有把偏置单元 x_0 = 1 加上,因为它不作为输入特征,我们单独加上 x_0w_0 = 1 * w_0,这样就跟单独计算等价了:

wx + 1 * w_0 = x_0w_0 + x_1w_1 + x_2w_2 + x_3w_3

然后再作为激活函数 g 的输入,得到输出 z

z = g(wx + 1 * w_0)

这样就用向量表示了单个神经元的计算,是不是很容易呀,要时刻注意 x_0 = 1 哦!

三、两层神经网络

3.1 大脑中的两层神经网络

这是大脑中 2 个神经元的连接图:

image

可以看到:

根据这个生物连接,科学家设计出了经典的 2 层神经网络。

3.2 两层人工神经网络

这是 2 层神经网络从下到上的结构:

image

还有一种从左到右的结构:

image

我更习惯用从左到右的结构:

同样我们也需要用向量化公式计算这个网络的输出,不过因为这个网络变量较多,所以我们先来定义以下符号的表示:

符号定好之后,就可以按照单个神经元的加权求和的方法写出中间层每个单元的计算公式,我们直接在中间层的节点上写出当前神经元的输出 a_i^{(2)},注意 a_0^{(2)} 是偏置单元,不连接上一层的输出:

image

a_1^{(2)} = g(W_{10}^{(1)}x_0 + W_{11}^{(1)}x_1 + W_{12}^{(1)}x_2 + W_{13}^{(1)}x_3)

image

a_2^{(2)} = g(W_{20}^{(1)}x_0 + W_{21}^{(1)}x_1 + W_{22}^{(1)}x_2 + W_{23}^{(1)}x_3)

image

a_3^{(2)} = g(W_{30}^{(1)}x_0 + W_{31}^{(1)}x_1 + W_{32}^{(1)}x_2 + W_{33}^{(1)}x_3)

我们来用向量把上面的公式组合起来方便算法计算:

image

通过向量化表示,最后用一个向量公式就可以计算所有中间节点的输出:

a^{(2)} = g(W^{(1)}x)

这个公式可以解释两层之间的数据传递:

可以看到第二层的每个神经元的值都与第一层所有神经元输出有关。相应地输出层计算公式也类似,要注意输出层只有一个节点哦,所以 W^{(2)} 是 1 X 3 大小:

image

h_\theta(x) = g(W_{10}^{(2)}a_0^{(2)} + W_{11}^{(2)}a_1^{(2)} + W_{12}^{(2)}a_2^{(2)} + W_{13}^{(2)}a_3^{(2)})

建议你也手动计算下:

image

把权重标在网络上帮助你更好的理解:

image

明白了的童鞋扣个 6,以上的过程建议自己在草稿纸上推导一遍,加深理解。

四、多层神经网络 - 深度学习

你肯定听过深度学习这 4 个字,自从阿尔法狗之后突然火热起来,其实深度学习本质上就是很多层的神经网络,通过增加网络层数来增加网络的表示能力,以此完成很多类似人脑的功能,比如图像领域的目标检测,语义分割等。

以下是一个目标检测的深度网络,本质上还是神经网络,多层神经网络每层的节点数设计原则如下:

其他的原理就不详细介绍了,以后会学习的:

image

五、神经网络如何处理多分类问题?

前面的 2 层神经网络的输出层只有一个节点,所以只能输出 2 分类问题(0 代表 猫,1 代表狗)

其实神经网络也可以处理多分类问题,只需要在网络的输出层增加节点即可,就像大脑神经元也可以有多个轴突输出一样。

输出层有多个节点的网络结构如下:

image

其中每个节点都可以代表一种类型,比如:猫、狗、老虎、狮子,这样就实现了多分类功能,是不是很巧妙,简直完美。

六、如何理解神经网络?

5.1 转换高级特征

如果我们把 2 层神经网络的输入层去掉,如下图:

image

会发现网络的输出就是逻辑回归的计算方法:

h_\theta(x) = g(W_{10}^{(2)}a_0^{(2)} + W_{11}^{(2)}a_1^{(2)} + W_{12}^{(2)}a_2^{(2)} + W_{13}^{(2)}a_3^{(2)})

只不过把逻辑回归的输入由输入特征 x_i 换为中间层的 a_i,这些 a_i 可以理解为比输入特征 x_i 更加高级的特征。

如果后面还有网络层那么输出的就是更加高级的特征,这样层层递进,最后网络对这些高级的特征进行分类处理,输出最后的结构,典型的应用就是图像的目标检测。

5.2 神经网络的本质

通过上面的学习我们已经知道了神经网络的结构和单个神经元的计算方法,可是你有没有疑惑?

我们到底在计算什么东西,这些节点的值有没有实际的意义呢?

为什么这个神经网络可以模拟我们的大脑?

这里我谈下我的理解,多层神经网络的本质就是用来拟合非常复杂的函数,函数复杂到可以有成千上万个 x

上面的 2 层神经网络就可以无限逼近任意的连续函数,因为我们设计人工神经网络是为了模拟人脑,可是计算机只能做数学运算。

因此我们要把人脑神经元的思考过程转化为计算机算法中的函数,这个转换的函数可能简单可能复杂,要根据实际的问题类型。

对于复杂的问题,比如识别图像中的小猫小狗,这个转换的函数就难以用表达式描述,而我们的神经网络是受到人脑生物神经元的启发设计的,它的结构就可以从理论上模拟任意连续的复杂函数,以解决复杂的机器学习问题。

别看上面的神经网络很多节点,其实这些节点并不重要,重要的是连接每层节点的权重 W

我们训练神经网络的过程就是调整这些连接权重,把这些权重调层最优,最后的网络输出效果就会好(识别猫狗的正确率高)。

记住:训练神经网络或者深度网络就是训练节点之间的连接权值!

这次就分享这些,大家下期再见()!

本文原创首发于微信公号「登龙」,分享机器学习、算法编程、Python、机器人技术等原创文章,扫码关注回复「1024」你懂的!

image
上一篇下一篇

猜你喜欢

热点阅读