ML&DL

Naive RNN vs LSTM vs GRU、attenti

2019-05-03  本文已影响46人  cherryleechen

一、Recurrent Neural Network

图1.1 Recurrent Neural Network1
图1.2 Recurrent Neural Network2
图1.3 Recurrent Neural Network3

二、Naive RNN

图2.1 Naive RNN1
图2.2 Naive RNN2

Naive RNN更新参数时易出现梯度消失/爆炸的问题。

三、LSTM

图3.1 LSTM1
图3.2 LSTM2 图3.3 LSTM3 图3.4 LSTM4 图3.5 LSTM5

标准形式的LSTM能工作得很好;输入门与遗忘门联动(类似GRU)以及没有peephole也能工作得很好。
输出激活函数、遗忘门对于LSTM的表现很重要。

四、GRU

图4.1 GRU1
图4.2 GRU2

与LSTM相比,GRU可以看做是输入门和遗忘门联动。由4个矩阵乘法变为了3个,参数量更少,降低了过拟合的可能性。

五、attention基础

上一篇下一篇

猜你喜欢

热点阅读