2020-04-03李宏毅深度学习与人类语言处理笔记2(DLHL

2020-04-03  本文已影响0人  白骨鱼石

要介绍的Models

大家都是seq2seq模型,所以用各自的名字区分。


需要介绍的模型

LAS

Listen

encoder RNN

红色的三角形代表一个filter(吃100个acoustic features)


1D-CNN
self-attention

减少运算量。


image.png image.png

LAS中的attention

image.png

另一种attention的方式,不是点乘了,而是相加后通过tanh。


image.png
image.png

Spell

输出第一个字母。


image.png

继续拿z1做match

image.png image.png image.png

每次都选几率最大的。


image.png

缺点:但greedy decoding不见得会获取几率最大的结果。
(念博士的结果哈哈哈哈)


image.png
比greedy decoding更常见的是beam search。
image.png

Training

image.png
image.png image.png

back to attention

image.png

最早的语音辨识系统用的attention,两种模式都有(不仅影响当前,也影响下一个)。


image.png

attention的改变不应该乱跳。


image.png
第一篇用LAS的加了机制去控制按顺序改变attention。
image.png

LAS work 么?

很长一段时间之后,加了很多trick,居然打败了传统的模型。


image.png
image.png

神奇诶,机器自己学到了aaa和triple a是一样的。
LAS中decoder相当于加了一个language model。


image.png
正确率还有62.1%。哎,这个老师真的好搞笑,举的例子也很贴近生活,而我还是没懂细节哈哈哈,下来自己再看看。

LAS的限制

期待可以做online的语音辨识系统。

image.png
李宏毅DLHLP2020-LAS
上一篇下一篇

猜你喜欢

热点阅读