吴恩达深度学习-序列模型 1.10 LSTM长短期记忆网络
2020-01-31 本文已影响0人
prophet__
我们刚刚学习完了GRU,除了GRU之外,还有另外一种在RNN里很常见的模型方案,叫做LSTM(长短期记忆网络)。
对比与GRU,LSTM是一个更通用且更强大的版本,他们的不同首先在于在LSTM当中,at不一定等于ct,因此Ct~的赋值式就要进行更改。同时,在通用版本的LSTM当中也不存在GAMMAr这种参数。取而代之的是一个GAMMAf,f代表的是forget,也就是遗忘门。
所以在对Ct赋值的过程里,不止使用到的是GAMMAu,还有GAMMAf,和GAMMAo(output输出门)。GAMMAf控制的是对上一层的Ct-1在这一层的继承情况,GAMMAo控制的是这一层计算好了的Ct对At的输出情况。
我们再尝试把它可视化一下,总之这里包括了3个门,类似于一个逻辑电路,对从上一层的输出At-1进行计算之后得到一个新的At。
我们可以在这里看到一条红色的线,代表了C在整个过程当中的变化,只要我们对遗忘和更新的设定比较合理,它就能保持一个长期的稳定性和记忆能力。
除了这种非常通用的模型之外,也有一些人会使用peephole窥视孔的方法,也就是把Ct-1的值加入到GAMMAo的计算当中,通过学习上一次的Ct-1值来计算GAMMAo。
重点
在整个过程当中,所有的C当中的向量不同维度之间是不相关的,是1v1的形式呈现的,每一个向量控制的都是自己的记忆值。