BERT Paper Review
BERT-Google Code
Pre-training of Deep Bidirectional Transformers for Language Understanding
EMLo的热度还没降下来(凉了),紧接着OpenAI GPT和ELMo的Google BERT,在很多个NLP任务中都获得了大幅度的提升,又成了NLP的一个牛逼疯了大热点 。
下面记录一下对论文的理解和笔记。
1、相关知识
预训练模型,BERT是一个预训练模型。简单的来说就是一个模型通过大数据集A来训练,学习到一个关于数据集A的参数。当进行数据集B的任务时,先调用关于A的参数作为初始参数,然后再通过数据集B进行再训练,并调整参数,逐渐调整成为适合数据集B的模型,也就是“fine-tuning(微调)”。
这个特性的特点就是可以用很少的数据集B就能训练得到很好的训练参数,即,一定程度上的继承了在数据集A训练好的参数,通过微调使之快速适应数据集B。而且通常这样做,会得到比只用数据B训练得到的模型参数更好。
2、BERT
主要贡献:双向预训练对语言表示的重要性,使用MLM(Masked Language Model,遮蔽语言模型),语句级训练NextSentence任务
论文提出了两种不同Size的BERT模型:
BERTbase:L=12,H=768,A=12,TotalParams = 110M(Base版本的提出意在与GPT模型有相同的模型size,用以对比参照)
BERTlarge:L=24,H=1024,A=16,TotalParams = 340M
L:指网络的层数
H:指隐层的单元数
A:指使用的自注意力的头数(Attention Is All You Need)
两者的差别就是大小不同,在后面的实验结果部分,BERTlarge版本大概比base版本要再高约1% ~ 2%左右,在CoLA数据集差8%左右,RTE在4%左右。
模型结构对比
OpenAI GPTOpenAI GPT就是只用到了从左往右的上下文信息来做训练。
ELMo
而ELMo使用的是两个独立的单向LSTM来做训练。据说ELMo使用时效率比较低,而且很快又被提出的BERT强势压在头上,所以ELMo小火之后,就没然后了。
BERT
BERT的结构主要是基于多层多个双向Transformer(从左到右和从右到左)。Transformer在Attention论文中应用MT(机器翻译)任务时用了6层的Transformer。从结构上来讲,Transformer之间用的是Residual Connection,并且有batch normarlization这种“常规操作”,所以得以实现多层网络。而疑问在于多层的网络结构可以在NLP任务中学习到什么特征?有论点认为低层网络偏向于语法特征学习,高层网络偏向于语义特征学习,但这还没有得到论证。
Task1:MLM(遮蔽语言模型)
BERT创新性的一个亮点就是对输入数据的处理,“MLM”,即遮蔽语言模型。BERT通过对输入句子15%的token进行随机遮蔽(随机遮蔽的原因是为了减少未来fine-tuning时遇到未见词的可能性),然后将masked token的位置输出的最终隐层向量送到softmax,来预测masked token。而对于遮盖住的token在NLP下游任务中不存在这种Mask标记,因此为了解决这个问题,作者按照一定的比例来进行输入原词或者输入某个随机词。
文中例如:My dog is hairy
- 80%概率:用[mask] 标记替换:My dog is hairy -->My dog is [mask]
- 10%概率:随机词替换要标记位置:My dog is hairy -->My dog is pig.
- 10%概率:不做替换操作:My dog is hairy -->My dog is hairy. (无替换)
Transformer
Transformer已经提到,是来自于同是Google提出的《Attention Is All You Need》,是一种可以替代CNN和RNN的新架构,用来实现MT任务。CNN处理文本的缺陷是,卷积操作先天不适合用于文本序列操作,RNN没有并行化,很容易超出内存限制。
Transformer 结构
上图就是Transformer的结构图,分成左边Nx的encoder部分和右边Nx的decoder部分,相比较于RNN+Attention常见的encoder-decoder之间的Attention,还多出encoder和decoder内部的self-attention。每个Attention都有Multi-Head特征,最后通过Position encoding加入没有考虑过的位置信息。
Multi - Head Attention
将一个词的vector,切分成h个维度,求attention相似度(点积、cosine、MLP)时每个h维度计算。由于单词映射在高维空间作为向量形式,每一维空间都可以学习到不同的特征,相邻空间所学到的结果更相似,相较于全体空间放到一起更具合理性。比如对于vector-size = 512的词向量,取h=8,每64个空间做一个Attention,学到的结果更细化,更合理(即高维空间中的相邻维度具有的联系更紧密,我猜)。
Self - Attention
每个词位置的词都可以无视距离和方向,有机会和句子词序列中的每个词进行encoding。两个词的联系越强,self-attention的值越大。
Position Encoding
因为Transformer既没有RNN的循环单元也没有CNN的卷积操作,但序列顺序信息是非常重要的特征。
Transformer计算token的位置信息(这里使用正弦波),类似信号的周期性变化。这样的循环函数可以一定程度上增加模型的泛化能力。
PE (pos,2i) = sin(pos/10000 2i/d model )
PE (pos,2i+1) = cos(pos/10000 2i/d model )
但BERT直接训练一个Position Embedding 来保留位置信息,每个位置随机初始化一个向量,加入模型训练,最后就得到一个包含位置信息的embedding(emmmm)。BERT最后这个Position Embedding 和 Word Embedding选择使用 直接拼接。
Task2:Next Sentence Prediction
句子级别的连续性预测任务,即预测输入BERT的两端文本是否为连续的文本。训练时,输入模型的第二句以50%的概率从全部文本中随机抽取,剩下50%的概率选取第一个句子的后续一个句子作为输入。(其实就是做句子级匹配的二分类)
即如下:
[Input]:[CLS]太阳天[mask]照[SEP]我[mask]去学校[SEP]
[Label]:IsNext
[Input]:[CLS]太阳天[mask]照[SEP]交给警察[mask]叔手里面[SEP]
[Label]:NotNext
(虽然这个训练任务非常的简单,但是后来证明这项训练任务对QA和NLI都极有帮助)
Segment Embedding BERT Input Representation
The input embeddings is the sum of the token embeddings, the segmentation embeddings and position embeddings.
即直接拼接各个Embedding组合。
3、迁移策略
下游NLP任务分类:
a). 序列标注:分词、NER、语义标注…
b).分类任务:文本分类、情感识别…
c).句子关系判断:QA、自然语言推理、文本蕴含…
d).生成式任务:机器翻译、文本摘要、文本生成…
BERT 将传统大量在下游具体的NLP任务中做的操作转移到预训练词向量中,在获得BERT词向量后,最终只需要在词向量上加简单的MLP或线性分类器即可。
4、GLUE语料集
实验数据以及对应的NLP任务
- MNLI:蕴含关系推断
- QQP:问题对是否等价
- QNLI:句子是都回答问句
- SST-2:情感分析
- CoLA:句子语言性判断
- STS-B:语义相似
- MRPC:句子对是都语义等价
- RTE:蕴含关系推断
- WNLI:蕴含关系推断
References:
BERT Paper
Attention Paper
Attention Is All You Need 阅读笔记
BERT的理解
彻底搞懂BERT
BERT介绍