深度语言模型-GPT

2021-02-07  本文已影响0人  南朝容止

简介

OpenAI在2018提出了GPT(Generative Pre-Training)模型,模型采用了Pre-training + Fine-tuning的训练模式,可用于分类、推理、问答、相似度等任务。


image.png

不同点

GPT就是是在transformer的基础上提出的,但是又稍有不同:

特点

算法流程

预训练

输入

一句话中每个词的Embeding向量

image.png
其中We为字典单词的Embedding向量,Wp为位置编码矩阵,U可视为独热矩阵。

中间计算过程

就是一个单项Transformer,最后一层的输出为 hl

image.png

损失计算

根据最后一层输出,接一个矩阵W,因生成1维,然后算softmax,得到每个词概率,概率最大化。得到损失L1(C) 。 此处注P(u)计算时,使用了字典单词的Embedding向量We,这也是语言模型中常用的技巧。

image.png

给出Text1SEPText2,正常走transformer 仅保留masked self attention的decoder, 这样最后一层每个位置就能输出一个概率; 然后分别和对应的下一个词算损失。

Fun-tuning

运用少量的带标签数据对模型参数进行微调。

输入

将上一步中最后一个词的输出hl,作为下游监督学习的输入。

损失计算

按照有监督的标签,进行损失计算得到L2(C) 。

image.png

将 L2(C)和 L2(C)求和,即为做后的损失,如下图所示:

image.png

优点

缺点

单向Transformer,不能利用当前词后面词的语义。但是好像翻译场景不能利用,就是不知道后面词是什么?真的这样吗??

上一篇下一篇

猜你喜欢

热点阅读