aboutDL

序列模型之语言模型(Language model)简记

2019-01-30  本文已影响5人  madeirak

语言模型用来估计句子的可能性P(sentence)

一个句子的概率(W_{k} 是第k个词)

语料库(corpus)指的是很大的某种语言(例如英语)句子组成的文本。通过将语料库中的每个单词映射成索引(例如独热向量)形成字典。可以按需在字典中添加句子末尾标志<EOS>(end of sentence)和对应未出现在字典中的低频词的标志<UNK>(unknown words)作为补充。

一个句子的概率 bigram的计算

际应用中还会遇到一个问题:数据稀疏,解决方法介绍加法平滑

假设有一个词组在训练语料中没有出现过,那么它的频次就为0,但实际上显然不能认为它出现的概率为0,我们无法保证训练语料的完备性。那么,解决的方法是什么?如果我们默认每一个词组都出现至少1次呢,无论词组出现的频次是多少,都往上加1,这就能够解决未出现词组概率为0的问题了。

加法平滑,\delta 取常数
上一篇下一篇

猜你喜欢

热点阅读