Bert 学习笔记

2019-12-30  本文已影响0人  dreampai

BERT 可以用来干什么?

BERT 核心思想是什么

Transformer结构

6 个关键注意力模式

无监督的预训练

任务1: Masked Language Model (MLM)

缺点1:预训练与微调之间的不匹配,因为微调期间是没有看到 [Mask] token。

不是总用实际的 [Mask] token 替换被 “masked” 的词汇,而是采用训练数据生成器随机去选择15% 的 token。

缺点2:每个 batch 只预测了 15% 的 token,这说明了模型可能需要更多的预训练步骤才能收敛。

任务 2:Next Sentence Prediction

测试数据1

测试数据2

BERT 的一些细节

输入表示(input representation)

image.png

参考链接

上一篇下一篇

猜你喜欢

热点阅读