对lstm输入的理解（文本分类任务）

2018-01-21 本文已影响6人柴柴总

一原理理解

单层循环神经网络

Xt为t时刻的输入向量，ht为t时刻的输出向量

展开后的循环神经网络

深层循环神经网络

深层循环神经网络图来自Tensorflow实战Google深度学习框架郑泽宇著
lstm是对RNN单元进行了改进，把上述的RNN单元A替换为lstm单元

lstm内部
关于lstm的内部细节这篇博客上有非常清晰且易懂的介绍http://colah.github.io/posts/2015-08-Understanding-LSTMs
下面黄色的四个分别是单层的神经元，也就是我们熟悉的单层感知机的结构，而keras的unit参数（输出维度）实际上就是指这层神经元上的cell num
二如何将单句输入到lstm
lstm输入的是时间序列，而文本（句子）的输入似乎和时间序列没什么关系，唯一有点关系的似乎就是句子间若存在上下文联系，单句与上句输入的时间差。所以每个时间步输入的是整个句子？事实是，将标准的LSTM结构应用在文本分类的任务上，句子中的每个词组成的序列是输入的时间序列，在t时刻的输入即是句子的第t个词向量。

参考文章
http://colah.github.io/posts/2015-08-Understanding-LSTMs
keras的lstm参数详解csdn
知乎上关于keras中lstm的unit参数的讨论

对lstm输入的理解（文本分类任务）

猜你喜欢

热点阅读