BERT 模型相关疑问以及解答

2020-01-07 本文已影响0人 LCG22

1、BERT 名称中的双向指的是什么？是怎么体现双向的？

答：双向指的是双向语言模型，例如要被预测的 mask，mask 的上下文是可以被模型看到的

2、BERT 中的词嵌入、位置嵌入、句子类别编码是对应维度上的值直接相加的吗？

答：是的

如图：

图 2.1

3、BERT 是如何体现 mask 机制的？

4、BERT 的分类模型的损失函数是怎么样的？为什么要定义这样的损失函数呢？

图 4.1

答：

BERT 官方代码中的分类模型的损失函数叫做负对数似然函数（且是最小化，等价于最大化对数似然函数），数学表达式是：

图 4.2

至于为何要定义这样的损失函数，则是因为在实际使用中，常用逻辑回归模型去解决分类问题，当逻辑回归撞上平方损失，损失函数关于参数

非凸。所以，不是分类问题中不使用平方损失，而是逻辑回归不使用平方损失。而代码中的 log_probs 使用了对数，故而不使用平方损失，而使用负对数似然损失函数