AI

NLP讲座3: 词性信息-子词模型

2020-06-29  本文已影响0人  泥人冷风

1.人类语言的声音:语音和语音学


形态:词的一部分


<一种处理较大词汇量的可能方法-最看不见的单词是新的形态形式(或数字)>

形态学


书写系统中的单词


写作系统在表达单词的方式上有所不同-或不

单词级别下的模型


字符级别下的模型


1.单词嵌入可以由字符嵌入组成

2.可以将连接的语言当作字符来处理两种方法都已证明非常成功!

文字下方:书写系统


大多数深度学习NLP的工作都是从书面形式的语言开始的-它是易于处理的发现数据
但是人类语言写作系统不是一回事!

音位(也许有字) jiyawu ngabulu Wambaya
僵化音素 thorough failure English
音节/摩拉 ᑐᖑᔪᐊᖓᔪᖅ Inuktitut
表意文字(音节符号) 去年太空船二号坠毁 Chinese
结合以上 インド洋の島 Japanese

2. 纯字符级模型


纯字符级NMT模型


-最初表现不理想•(Vilar等,2007; Neubig等,2013)

英语-捷克语WMT 2015成绩


英语-捷克语WMT 2015示例


无需显式细分的全字符级神经机器翻译


Jason Lee,Kyunghyun Cho,Thomas Hoffmann。 2017.编码器如下; 解码器是字符级GRU

在LSTM seq2seq模型中具有深度的更强字符结果


回顾基于字符的神经机器翻译的能力和压缩。 2018.Cherry,Foster,Bapna,Firat,Macherey,Google AI

3. 子词模型:两种趋势


字节对编码


Rico Sennrich,Barry Haddow和Alexandra Birch。 具有子词单位的稀有词的神经机器翻译。 ACL 2016。
https://arxiv.org/abs/1508.07909 https://github.com/rsennrich/subword-nmt https://github.com/EdinburghNLP/nematus







字词/句子模型


4. 字符级以构建词级学习词级表示形式


语音标记(Dos Santos和Zadrozny 2014)

基于字符的LSTM构建单词表示


基于字符的LSTM


技术方法


字符感知神经语言模型

Yoon Kim,Yacine Jernite,David Sontag,Alexander M.Rush,2015年
更为复杂/复杂的方法

卷积层


公路网(Srivastava et al.2015)


长短期记忆网络


定量结果


定性见解


外卖


混合NMT


2级解码


英语和捷克语的结果


样本英语-捷克语翻译

5. 单词嵌入的字符


词嵌入和词形态的联合模型
(Cao and Rei 2016)

FastText embeddings


使用子词信息Bojanowski,Grave,Joulin和Mikolov丰富词向量。 公平。 2016。
https://arxiv.org/pdf/1607.04606.pdf
https://fasttext.cc

单词相似性数据集得分(相关性)

上一篇 下一篇

猜你喜欢

热点阅读