BERT Paper Review

2019-05-16  本文已影响0人  呢嘻嘻嘻嘻嘻

BERT-Google Code

Pre-training of Deep Bidirectional Transformers for Language Understanding

       EMLo的热度还没降下来(凉了),紧接着OpenAI GPT和ELMo的Google BERT,在很多个NLP任务中都获得了大幅度的提升,又成了NLP的一个牛逼疯了大热点 。
       下面记录一下对论文的理解和笔记。

1、相关知识

       预训练模型,BERT是一个预训练模型。简单的来说就是一个模型通过大数据集A来训练,学习到一个关于数据集A的参数。当进行数据集B的任务时,先调用关于A的参数作为初始参数,然后再通过数据集B进行再训练,并调整参数,逐渐调整成为适合数据集B的模型,也就是“fine-tuning(微调)”。
       这个特性的特点就是可以用很少的数据集B就能训练得到很好的训练参数,即,一定程度上的继承了在数据集A训练好的参数,通过微调使之快速适应数据集B。而且通常这样做,会得到比只用数据B训练得到的模型参数更好。

2、BERT

       主要贡献:双向预训练对语言表示的重要性,使用MLM(Masked Language Model,遮蔽语言模型),语句级训练NextSentence任务

       论文提出了两种不同Size的BERT模型:
              BERTbase:L=12,H=768,A=12,TotalParams = 110M(Base版本的提出意在与GPT模型有相同的模型size,用以对比参照)
              BERTlarge:L=24,H=1024,A=16,TotalParams = 340M
L:指网络的层数
H:指隐层的单元数
A:指使用的自注意力的头数(Attention Is All You Need)
        两者的差别就是大小不同,在后面的实验结果部分,BERTlarge版本大概比base版本要再高约1% ~ 2%左右,在CoLA数据集差8%左右,RTE在4%左右。

       模型结构对比
OpenAI GPT

       OpenAI GPT就是只用到了从左往右的上下文信息来做训练。


ELMo

       而ELMo使用的是两个独立的单向LSTM来做训练。据说ELMo使用时效率比较低,而且很快又被提出的BERT强势压在头上,所以ELMo小火之后,就没然后了。


BERT
       BERT的结构主要是基于多层多个双向Transformer(从左到右和从右到左)。Transformer在Attention论文中应用MT(机器翻译)任务时用了6层的Transformer。从结构上来讲,Transformer之间用的是Residual Connection,并且有batch normarlization这种“常规操作”,所以得以实现多层网络。而疑问在于多层的网络结构可以在NLP任务中学习到什么特征?有论点认为低层网络偏向于语法特征学习,高层网络偏向于语义特征学习,但这还没有得到论证。
       Task1:MLM(遮蔽语言模型)

       BERT创新性的一个亮点就是对输入数据的处理,“MLM”,即遮蔽语言模型。BERT通过对输入句子15%的token进行随机遮蔽(随机遮蔽的原因是为了减少未来fine-tuning时遇到未见词的可能性),然后将masked token的位置输出的最终隐层向量送到softmax,来预测masked token。而对于遮盖住的token在NLP下游任务中不存在这种Mask标记,因此为了解决这个问题,作者按照一定的比例来进行输入原词或者输入某个随机词。
文中例如:My dog is hairy

       Task2:Next Sentence Prediction

       句子级别的连续性预测任务,即预测输入BERT的两端文本是否为连续的文本。训练时,输入模型的第二句以50%的概率从全部文本中随机抽取,剩下50%的概率选取第一个句子的后续一个句子作为输入。(其实就是做句子级匹配的二分类)
即如下:
       [Input]:[CLS]太阳天[mask]照[SEP]我[mask]去学校[SEP]
       [Label]:IsNext
       [Input]:[CLS]太阳天[mask]照[SEP]交给警察[mask]叔手里面[SEP]
       [Label]:NotNext
(虽然这个训练任务非常的简单,但是后来证明这项训练任务对QA和NLI都极有帮助)

       Segment Embedding BERT Input Representation

       The input embeddings is the sum of the token embeddings, the segmentation embeddings and position embeddings.
       即直接拼接各个Embedding组合

3、迁移策略

下游NLP任务分类:
a). 序列标注:分词、NER、语义标注…
b).分类任务:文本分类、情感识别…
c).句子关系判断:QA、自然语言推理、文本蕴含…
d).生成式任务:机器翻译、文本摘要、文本生成…
       BERT 将传统大量在下游具体的NLP任务中做的操作转移到预训练词向量中,在获得BERT词向量后,最终只需要在词向量上加简单的MLP或线性分类器即可。

4、GLUE语料集

实验数据以及对应的NLP任务

References:
       BERT Paper
       Attention Paper
       Attention Is All You Need 阅读笔记
       BERT的理解
       彻底搞懂BERT
       BERT介绍

上一篇 下一篇

猜你喜欢

热点阅读