AI

NLP讲座4:上下文表示法和预训练

2020-07-01  本文已影响0人  泥人冷风

最想学习哪些内容,汇总如下:


预训练的词向量:早年的Collobert,Weston等人,2011成绩


预训练的词向量:当前(2014 -)


用词向量识别生词


  1. 我们刚刚学习了用于构建向量的char级模型!
    • 特别是在诸如问答之类的应用中
      • 单词标识匹配的重要位置(甚至单词矢量词汇之外的单词)

2.尝试这些技巧(来自Dhingra,Liu,Salakhutdinov和Cohen,2017年)
- a. 在测试时间内,如果<UNK>字出现在无监督的嵌入字里,就在测试时间内使用该向量。
- b. 另外换句话说,只需给他们分配一个随机向量,将它们添加到您的词汇表中。

1. 怎样描述一个词?


我们一直都有解决这个问题的办法吗?


2. Peters等(2017年):TagLM –“Pre-ELMo”


https://arxiv.org/pdf/1705.00108.pdf

Tag LM


命名实体识别(NER)


NLP的一个非常重要的子任务:例如,在文本中查找和分类名称:

彼得斯等(2017):TagLM –“Pre-ELMo”


语言模型在“十亿个单词基准”的八亿个训练单词上进行训练
语言模型观察

同样在空中:McCann等(2017年)


https://arxiv.org/pdf/1708.00107.pdf

彼得斯等(2018):ELMo:语言的嵌入模型


深度上下文化的单词表示形式。 NAACL 2018.https://arxiv.org/abs/1802.05365

彼得斯等(2018):ELMo:语言模型的嵌入模型


彼得斯等(2018):ELMo:语言的嵌入模型


彼得斯等(2018):ELMo:与任务配合使用


序列标记器中使用的ELMo


CoNLL 2003命名实体识别(en news testb)


ELMo结果:适用于所有任务


ELMo:图层权重


周围还有:ULMfit


Howard and Ruder(2018)通用语言模型微调,用于文本分类。 https://arxiv.org/pdf/1801.06146.pdf

ULMfit


在大型通用领域语料库上训练LM(使用biLM)在目标任务数据上调整LM
微调为目标任务的分类器

ULMfit重点


使用大小适中的“ 1 GPU”语言模型不是真正庞大的模型在LM微调中要多加注意
每层学习率不同
倾斜的三角形学习率(STLR)进度表学习分类器时,使用层级[h#,maxpool +,meanpool +]进行分类时逐步分层和STLR

ULMfit性能

ULMfit转移学习


让我们扩大规模!


GPT-2语言模型(精选)输出


系统提示(人为写)
模型完成(机器编写,10条)
在一个令人震惊的发现中,科学家发现了一群独角兽,它们生活在安第斯山脉一个偏远的,以前未被开发的山谷中。令研究人员更加惊讶的是,独角兽会说完美的英语。
这位科学家以其独特的号角Ovid的独角兽命名了这个种群。这些四角银白色独角兽以前是科学界所不知道的。
现在,在将近两个世纪之后,终于解决了引发这种奇怪现象的谜团。
拉巴斯大学(University of La Paz)的进化生物学家豪尔赫·佩雷斯(JorgePérez)博士和几位同伴在安第斯山脉发现一个没有其他动物或人类的小山谷时正在探索。佩雷斯注意到该山谷似乎是一个天然喷泉,周围环绕着两个岩石和银色雪峰。
佩雷斯和其他人然后进一步冒险进入山谷。 ...

变压器模型


所有这些模型都是Transformer体系结构模型...所以也许我们最好了解一下Transformers?

4. 变压器的动力


变压器概述


注意就是您所需要的。 2017.阿斯瓦尼(Aswani),Shazeer,Parmar,Uszkoreit,Jones,Gomez,Kaiser,Polosukhin https://arxiv.org/pdf/1706.03762.pdf

变压器基础


点积注意(扩展我们以前的DEF)


-输入:查询q和到输出的一组键值(k-v)对

点产品注意–矩阵符号


逐行softmax

点积乘积注意


编码器中的自我注意


多头注意力


完整的变压器块


每个块都有两个“子层”

这两个步骤还具有:
残余(短路)连接和LayerNorm
LayerNorm(x +子层(x))
Layernorm将输入更改为均值0和方差1,
每层和每个训练点(并增加了两个参数)

由Ba,Kiros和Hinton,进行的图层归一化,https://arxiv.org/pdf/1607.06450.pdf

编码器输入


完整的编码器


第5层中的注意力可视化


关注可视化:隐式回指解析


在第5层。 注意头5和6的注意力仅与“它”一词分开。请注意,此单词的注意非常尖锐。

变压器解码器


块也重复了6次

提示和变压器的技巧


详细信息(书面和/或以后的讲座):

MT的实验结果


解析实验结果


5. BERT:Devlin,Chang,Lee,Toutanova(2018年)


BERT(来自变压器的双向编码器表示):
深度双向变压器的预训练以提高语言理解能力

基于Jacob Devlin的幻灯片

该男子去了[MASK]买的牛奶[MASK]

BERT复杂化:下一句预测


BERT句子对编码


令牌嵌入是单词片段
学习的分段式嵌入表示每个句子位置式嵌入与其他Transformer架构相同

BERT模型结构和训练


BERT模型微调


BERT在GLUE任务上的结果


CoNLL 2003命名实体识别(en news testb)


BERT在SQuAD 1.1上的结果


SQuAD 2.0排行榜,2019-02-07


预培训任务的效果


大小事项


上一篇 下一篇

猜你喜欢

热点阅读