NLP Language Model

2020-03-01 本文已影响0人 myxz

语言模型目标

image.png

马尔科夫假设

image.png

注意这里的计算公式

image.png

分完词后的每个词汇作为一个基本单元计算

image.png

评估语言模型

相当于在测试集上跑一遍，比较两个模型的perplexity（复杂度）谁更小。

image.png

平滑

加一平滑注意V是词典的大小（语料去重后的大小）

image.png

解释了分母为什么加V，保证每个条件概率之和为1

image.png
加K平滑，利用验证集上perplexity判断最优的K

image.png

Interpolation

下面的例子中in the kitchen的可能性更大，但是仅依靠Trigram无法判断其与in the arboretum的概率。

image.png

所以我们考虑下面的加权平均

image.png

上一篇下一篇

猜你喜欢

热点阅读