笔记 | 一天搞懂深度学习
一天搞懂深度学习是台湾大学李宏毅教授写的300页左右的PPT,是深度学习入门不错的材料,可以快速的了解深度学习的主要术语、思想、应用、趋势等。
主要对里面的重点内容进行记录。
Lecture 1: Introduction of Deep Learning
深度学习的3个步骤
- Network Structure
一系列函数 - Learning Target
什么样的算好?优化目标是什么? - Learn!
选出来最好的
神经网络
类似于人类大脑的神经元
一个神经元(Neuron)
如果输入是k维的,对应每一维的输入都有相应的权重weights,加上bias后,再经过激活函数,得到输出的结果。
上面是一个neuron的图示,如果把不同的neuron进行组合,或者说把某些neuron的输出作为其他neuron的输入,就得到了不同的神经网络。
激活函数
最基本的例子的是Sigmoid函数,在机器学习LR模型中也用到。还有比较常用的是ReLU,在Lecture 2中有进一步介绍。
深度学习的Deep
Hidden Layers 隐层
Fully Connect FeedForward Network 全连接前馈网络
深度学习的Deep就在于有多个hidden layers。
深度大概到什么程度呢?
- AlexNet (2012):8
- VGG (2014):19
- GoogleNet (2014):22
- Residual Net (2015):152(Ultra Deep Network),跟台北101大厦有的一拼
Output Layer
输出层是为了做选择的,一般是softmax layer
softmax怎么理解呢?可以简单概述为:雨露均沾+归一化。理论上只要将输出的结果取max就可以了,但是soft软在哪呢?对于不同的输出计算了一个概率,且这个概率和为1,计算方式如图所示:
Learning Target: min. loss
学习的目标就是最小化所有样本的loss,一般使用均方误差或者是交叉熵。
最小化总loss -> 找到一组最好的function达到这个目标 -> 找到functions最好的参数达到这个目标
如何找到最好的参数呢?Learn!
穷举是一种方法,但是参数太多,穷举的情况呈指数级,不可行。所以一般采用梯度下降法,导数的正负决定了移动的方向,导数的绝对值*学习率决定了移动的大小。经过迭代直到导数很小。
梯度下降法存在的问题就是没法保证全局最优,不同的初始点(初始选择可以random, pre-train, RBM)可能会得到不同的结果(局部最优)。
梯度下降神经网络计算梯度的算法是反向传播算法Backpropagation,简称BP。现在有很多的toolkits,可以不用纠结具体如何处理导数。
BP
Lecture 2: Tips for Training Deep Neural Network
Keras
Keras是基于TensorFlow或者Theano的高级神经网络API,更容易学习和使用,而且保持了一定的灵活性。
Keras (κέρας) 在希腊语中意为 号角 。Documentation / 中文文档
Keras十分的简单易用,如简单的Sequential
顺序模型,可以参考快速开始:30 秒上手 Keras
from keras.models import Sequential
model = Sequential()
from keras.layers import Dense
model.add(Dense(units=64, activation='relu', input_dim=100))
model.add(Dense(units=10, activation='softmax'))
model.compile(loss='categorical_crossentropy',
optimizer='sgd',
metrics=['accuracy'])
model.fit(x_train, y_train, epochs=5, batch_size=32)
loss_and_metrics = model.evaluate(x_test, y_test, batch_size=128)
classes = model.predict(x_test, batch_size=128)
可以设置激活函数、输入输出的维度、loss、学习率等。
如果想用GPU来加速训练,有如下两种方式:
Way 1
THEANO_FLAGS=device=gpu0 python YourCode.py
Way 2 (in your code)
import os
os.environ["THEANO_FLAGS"] = "device=cpu"
Good results on training/testing data?
在训练网络的时候,不仅要看结果在测试集上表现如何,也要看在训练集上如何,不同的情况有不同的解决方式。不要总是责怪过拟合。如下面的例子,不能只看右图就判定56-layer的过拟合了,要看在训练集上的表现,属于对56-layer 的网络训练得还不够好,可能落入了局部最优。
Training set表现不好
- 选择合适的Loss function:使用Cross Entropy效果要优于Mean Square Error
- Mini-batch: 每次训练使用少量数据而不是全量数据效率更高
- Activation Function:使用ReLU替代Sigmoid可以解决梯度消失的问题,可以训练更深的神经网络。还有其他变形。
- Adaptive Learning Rate:Adagrad可以随着迭代不断自我调整,提高学习效率。平稳,学习率↑
- Momentum: 可以一定程度上避免陷入局部最低点的问题,就好像物理世界中给球增加一个动力,可以冲过局部最低点。
ReLU变形
Maxout Adagrad Momentum
Test set表现不好 (overfitting)
- Early Stopping:使用cross validation的方式,不断对validation data进行检验,一旦发现预测精度下降则停止。用test set提前终止,防止overfitting。
- Weight Decay:参数正则化的一种方式,无用的权重萎缩->0。
- Dropout:在每次更新参数之前,随机丢掉p%的输入。但是要注意,在训练集上dropout,相当于改变了网络(thinner),不同的dropout得到的不同的网络,是一种ensemble。在测试集上所有的权重要乘以(1-p)%
- Network Structure:如CNN等
Dropout
Lecture 3: Variants of Neural Network
CNN (Convolutional Neural Network)
一般用于图像,核心的想法在于一些物体的特征往往可以提取出来,并且可能出现在图片的任何位置,而且通过卷积、池化可以大大减少输入数据,加快训练效率。
- 为什么要卷积?
一些模式(如鸟的嘴)的大小远远小于整个图片;一些相同的模式(还是如鸟的嘴)可能出现在不同的区域上。
如果要是对每一个地方都查看,太冗余。只需要一个neuron看有没有嘴就行了。 - 为什么要max pooling
对像素下采样,并不会改变物体,可以让图片大小更小,参数也就更少。 - Flatten
把不同的位置的值flatten看作一个多维的输入。
RNN (Recurrent Neural Network)
有记忆的神经网络,将hidden layer的数据存储下来,然后作为输入给下一个网络学习。这种网络的想法可以解决自然语言中前后词语是存在关联性的。
RNN
RNN
1-of-N encoding
其实就是one-hot encoding,如果有一个100...00
大小的词典,那么每一个单词都要用一个100..00
维的向量表示,只有一位为1,其他位均为0。
区别:"1-of-N" vs "1-of-N-1"
word hashing
26
个字母,如果每3
个字母一组,共有26^3
种组合,可以用对应组合的出现情况来表示单词。
Unfortunately
RNN-based network is not always easy to learn.
经常Total loss是震荡的。一般有以下helpful techniques
- Advance momentum method
Nesterov’s Accelerated Gradient (NAG) - LSTM (Long Short Term Memory)
-
GRU (Gated Recurrent Unit)
Simplified LSTM
Lecture 4: Next Wave
-
Supervised Learning
- Ultra Deep Network
- Attention Model - Reinforcement Learning
-
Unsupervised Learning
- Image: Realizing what the World Looks Like
- Text: Understanding the Meaning of Words
- Audio: Learning human language without supervision