我爱编程

笔记 | 一天搞懂深度学习

2018-06-16  本文已影响0人  步晓德

一天搞懂深度学习是台湾大学李宏毅教授写的300页左右的PPT,是深度学习入门不错的材料,可以快速的了解深度学习的主要术语、思想、应用、趋势等。

主要对里面的重点内容进行记录。


Lecture 1: Introduction of Deep Learning

深度学习的3个步骤

  1. Network Structure
    一系列函数
  2. Learning Target
    什么样的算好?优化目标是什么?
  3. Learn!
    选出来最好的

神经网络

类似于人类大脑的神经元


一个神经元(Neuron)

如果输入是k维的,对应每一维的输入都有相应的权重weights,加上bias后,再经过激活函数,得到输出的结果。

上面是一个neuron的图示,如果把不同的neuron进行组合,或者说把某些neuron的输出作为其他neuron的输入,就得到了不同的神经网络。


激活函数

最基本的例子的是Sigmoid函数,在机器学习LR模型中也用到。还有比较常用的是ReLU,在Lecture 2中有进一步介绍。

深度学习的Deep

Hidden Layers 隐层
Fully Connect FeedForward Network 全连接前馈网络

深度学习的Deep就在于有多个hidden layers。


深度大概到什么程度呢?

Output Layer

输出层是为了做选择的,一般是softmax layer

softmax怎么理解呢?可以简单概述为:雨露均沾+归一化。理论上只要将输出的结果取max就可以了,但是soft软在哪呢?对于不同的输出计算了一个概率,且这个概率和为1,计算方式如图所示:

softmax

Learning Target: min. loss

学习的目标就是最小化所有样本的loss,一般使用均方误差或者是交叉熵。

最小化总loss -> 找到一组最好的function达到这个目标 -> 找到functions最好的参数达到这个目标

如何找到最好的参数呢?Learn!

穷举是一种方法,但是参数太多,穷举的情况呈指数级,不可行。所以一般采用梯度下降法,导数的正负决定了移动的方向,导数的绝对值*学习率决定了移动的大小。经过迭代直到导数很小。

梯度下降法存在的问题就是没法保证全局最优,不同的初始点(初始选择可以random, pre-train, RBM)可能会得到不同的结果(局部最优)。

梯度下降

神经网络计算梯度的算法是反向传播算法Backpropagation,简称BP。现在有很多的toolkits,可以不用纠结具体如何处理导数。


BP

Lecture 2: Tips for Training Deep Neural Network

Keras

Keras是基于TensorFlow或者Theano的高级神经网络API,更容易学习和使用,而且保持了一定的灵活性。
Keras (κέρας) 在希腊语中意为 号角 。Documentation / 中文文档

Keras十分的简单易用,如简单的Sequential顺序模型,可以参考快速开始:30 秒上手 Keras

from keras.models import Sequential
model = Sequential()

from keras.layers import Dense
model.add(Dense(units=64, activation='relu', input_dim=100))
model.add(Dense(units=10, activation='softmax'))

model.compile(loss='categorical_crossentropy',
              optimizer='sgd',
              metrics=['accuracy'])

model.fit(x_train, y_train, epochs=5, batch_size=32)

loss_and_metrics = model.evaluate(x_test, y_test, batch_size=128)

classes = model.predict(x_test, batch_size=128)

可以设置激活函数、输入输出的维度、loss、学习率等。

如果想用GPU来加速训练,有如下两种方式:

Way 1
    THEANO_FLAGS=device=gpu0 python YourCode.py
Way 2 (in your code) 
    import os
    os.environ["THEANO_FLAGS"] = "device=cpu"

Good results on training/testing data?

在训练网络的时候,不仅要看结果在测试集上表现如何,也要看在训练集上如何,不同的情况有不同的解决方式。不要总是责怪过拟合。如下面的例子,不能只看右图就判定56-layer的过拟合了,要看在训练集上的表现,属于对56-layer 的网络训练得还不够好,可能落入了局部最优。


Training set表现不好

  1. 选择合适的Loss function:使用Cross Entropy效果要优于Mean Square Error
  2. Mini-batch: 每次训练使用少量数据而不是全量数据效率更高
  3. Activation Function:使用ReLU替代Sigmoid可以解决梯度消失的问题,可以训练更深的神经网络。还有其他变形。
  4. Adaptive Learning Rate:Adagrad可以随着迭代不断自我调整,提高学习效率。平稳,学习率↑
  5. Momentum: 可以一定程度上避免陷入局部最低点的问题,就好像物理世界中给球增加一个动力,可以冲过局部最低点。

深度学习最常用的算法:Adam优化算法

ReLU
ReLU变形
Maxout Adagrad Momentum

Test set表现不好 (overfitting)

  1. Early Stopping:使用cross validation的方式,不断对validation data进行检验,一旦发现预测精度下降则停止。用test set提前终止,防止overfitting。
  2. Weight Decay:参数正则化的一种方式,无用的权重萎缩->0。
  3. Dropout:在每次更新参数之前,随机丢掉p%的输入。但是要注意,在训练集上dropout,相当于改变了网络(thinner),不同的dropout得到的不同的网络,是一种ensemble。在测试集上所有的权重要乘以(1-p)%
  4. Network Structure:如CNN等
Early stopping
Dropout

Lecture 3: Variants of Neural Network

CNN (Convolutional Neural Network)

一般用于图像,核心的想法在于一些物体的特征往往可以提取出来,并且可能出现在图片的任何位置,而且通过卷积池化可以大大减少输入数据,加快训练效率。

RNN (Recurrent Neural Network)

有记忆的神经网络,将hidden layer的数据存储下来,然后作为输入给下一个网络学习。这种网络的想法可以解决自然语言中前后词语是存在关联性的。


RNN
RNN

1-of-N encoding

其实就是one-hot encoding,如果有一个100...00大小的词典,那么每一个单词都要用一个100..00维的向量表示,只有一位为1,其他位均为0。
区别:"1-of-N" vs "1-of-N-1"

word hashing

26个字母,如果每3个字母一组,共有26^3种组合,可以用对应组合的出现情况来表示单词。

Unfortunately

RNN-based network is not always easy to learn.
经常Total loss是震荡的。一般有以下helpful techniques


Lecture 4: Next Wave


参考资料

  1. 台大PPT:一天搞懂深度学习
  2. 深度学习导论 - 读李宏毅《1天搞懂深度学习》
  3. “一天搞懂深度学习”笔记
上一篇下一篇

猜你喜欢

热点阅读