自然语言处理—BERT

2021-01-16 本文已影响0人 zidea

BERT(Bidirectional Encoder Representations from Transformers)

在 ACL 上，Devlin, Chang, Lee 和 Toutanova 发表于 2019 的文章— BERT:Pre-training of deep bidirectional transformers for language understanding。

那么什么是 BERT 呢? 我们先从字面上解释一下什么是 BERT，我们将词分开来一个一个地看来解读什么是 BERT。

Bidirectional : 是双向神经网络，这个在学习 RNN 时候我们就了解到如何使用双向 RNN 让每一个词视野更加广阔，不但可以看到其前面词还能看到其后面的词
Encoder : 说明 BERT 是编码器
Representations : BERT 是完成词的表征的任务的模型，之前我们已经学过了了 word2vec
Transformer: 其实 BERT 就是 transform 解码器部分，表示 BERT 结构没有采用 LSTM 这样 RNN 结构，而是采用了 Transformer 这样结构来实现双向循环神经网，Transformer 对象 LSTM 的优势是并行计算

那么 BERT 用途是啥呢

human_labeling.jpeg

我们先说 BERT 的优点，就是在训练 BERT 时候我们不需要人工数据集，随便那些文本资料就可以用于训练 BERT，这些文本可以小说、技术书刊、杂志或者是网页等等来做预训练。

computing_power.png

但是 BERT 也不是完美无缺，BERT 需要大量算力才能进行 BERT 的训练

recieve_message.jpg

简单介绍一下 BERT 中的两个任务
以及两个任务的作用
如何将两个任务设计到一个网络结构中

双向变换器编码表征(Devlin at al, 2018)

上下文
(巨大)的 transformer 编码器

| 版本 | block |hidden units |heads | parameters |GPU | time |
|---|---|---|---|---|---|---|---|
| Small | 12 | 768 | 12 | 110M | 16TPU | 14 days|
| Large | 24 | 1024 | 16 | 340M |

如果要用亚马逊的服务可能要花费 1 万美元才能训练出小规模的 BERT
I went to the bank to deposit some money
I went to the back to sit down

预训练

提高模型的泛化能力的方法
随机遮挡一个单词，让编码器(encoder)根据上下文来预测被遮挡的单词
将两句话放在一起，让编码器(encoder)来判断这两句话是不是原文中相邻的两句话

任务1—预测被遮挡的单词

BERT_002.png

输入是文本序列，经过预处理，有关如何对文本进行预处理之前已经给大家介绍过，将文本切分为单词
经过 Embedding Layer 将每一个单词映射为词向量
经过 Transformer 的编码器(Encoder) 后得到

BERT_005.png

从一句话中对所有 token 进行随机选取，每一个 token 选取可能性都是 15%
- 80% 用 <mask> 替换掉这个词
- 10% 用一个 <random token> 来替换掉这个词
- 10% 用 cat 这个词
transformer 中有注意力机制，所以 $u_M$ 和输入 $x$ 并不是一对一映射，而是多对一映射。