序列模型之语言模型(Language model)简记
2019-01-30 本文已影响5人
madeirak
语言模型用来估计句子的可能性(sentence)
一个句子的概率(是第k个词)一个句子的概率 bigram的计算语料库(corpus)指的是很大的某种语言(例如英语)句子组成的文本。通过将语料库中的每个单词映射成索引(例如独热向量)形成字典。可以按需在字典中添加句子末尾标志<EOS>(end of sentence)和对应未出现在字典中的低频词的标志<UNK>(unknown words)作为补充。
加法平滑,取常数际应用中还会遇到一个问题:数据稀疏,解决方法介绍加法平滑。
假设有一个词组在训练语料中没有出现过,那么它的频次就为0,但实际上显然不能认为它出现的概率为0,我们无法保证训练语料的完备性。那么,解决的方法是什么?如果我们默认每一个词组都出现至少1次呢,无论词组出现的频次是多少,都往上加1,这就能够解决未出现词组概率为0的问题了。