TF-LSTM、Grid-LSTM

2018-08-13  本文已影响431人  ChongmingLiu

一、简介

F-LSTM和TF-LSTM主要目的是为了取代CNN作为特征提取的工具,来达到对频带间相关性建模的目的。F-LSTM和TF-LSTM也是通过类似卷积的方式,通过一个小的滑动窗来捕获语音的平移不变性。

因为使用Peephole方式的LSTM效果更好一些,因此本文提到了LSTM都是使用Peephole连接方式。
通过对比实验,Grid-LSTM与TF-LSTM特征提取的效果要比CNN好很多,但同时计算速度也慢很多。

T/F-LDNN

二、T-LSTM

T-LSTM就是原始的LSTM,沿着时间轴,将每帧输入LSTM中进行预测。即上图横向。

三、F-LSTM

F-LSTM的形式与T-LSTM类似,只不过输入有变化,其中的
x0 = xt0:Fx1 = xt1:1+Fx2 = xt2:2+F,......,
即将每帧语音按照长为 F的滑动窗 进行分割,并且 步长为S,输入到F-LSTM中。
则特征维度为N的一帧语音被分割为L = (N - F)/S + 1 块。

形式化表述:

其中:

F-LSTM单元引入了如下信息:

优点:

  1. 与CNN类似,也是采用权值共享减少参数个数;
  2. 可以提取频带局部结构;
  3. 卷积通过pooling捕获频率的平移不变性,F-LSTM能够实现类似max-pooling的作用,并且省去了对pooling操作调参的步骤;

四、TF-LSTM

手绘示意图

因为语音的时域和频域存在相关性,因此对时频同时建模来引入时频之间的相关性。

形式化表述:
TF-LSTM单元引入了如下信息:

五、Grid-LSTM

TF-LSTM与Grid-LSTM的最大差别就是Grid-LSTM在time-domain和frequency-domain分别各有一个LSTM单元,而TF-LSTM是将time-domain和frequency-domain放在一个LSTM单元里。
Grid-LSTM分别得到时域和频域的输出,然后将两者拼接(concatenate)到一起。

但是两个LSTM单元在训练时计算量很大,导致Grid-LSTM训练速度比TF-LSTM慢很多,但是也可以令gF-LSTM和gT-LSTM的权值共享,可以加快LSTM的训练速度,降低计算开销。

形式化表述:
Grid-LSTM单元引入了如下信息:
上一篇下一篇

猜你喜欢

热点阅读