BERT

2019-01-25  本文已影响0人  瓜子小姐

与Elmo/GPT相比,bert的改进
bert预训练的方式、input representation
fine-tune方式、常用数据集介绍
思考

与Elmo相比,bert的改进?

深度(bi-lstm - transformer) + 同时双向:ELMo中是通过双向的两层RNN结构对两个方向进行建模,但两个方向的loss计算相互独立。

传统语言模型.png 基于bi-lstm的拼接向量的分类.png transformer.png

与GPT相比,bert的改进?fig1, 3.6

双向 + 大语料 + ...

GPT-pretrain.png pre-train+fine-tune.png

bert预训练的方式? 3.3

Task 1:Masked Language Model
Task 2:Next Sentence Prediction

Input Representation? fig2, 3.2

如何fine-turning? fig3, 4.1-4.4

我的问题

上一篇 下一篇

猜你喜欢

热点阅读