自然语言处理——5.2 语言模型(参数估计)
2018-10-03 本文已影响20人
SpareNoEfforts
两个重要概念:
- 训练语料(training data):用于建立模型,确定模型参数的已知语料。
- 最大似然估计(maximum likelihood Evaluation, MLE):用相对频率计算概率的方法。
最大似然估计求法
对于n-gram,参数可由最大似然估计求得:
其中,是历史串在给定语料中出现的次数,即,不管是什么。
是在给定的条件下出现的相对频度,分子为与同出现的次数。
举例
例如,给定训练语料:
“John read Moby Dick”,
“Mary read a different book”,
“She read a book by Cher”
根据 2 元文法求句子的概率?
解答:
提出问题
如下所示:
因为:
于是:
数据匮乏(稀疏) (Sparse Data) 引起零概率问题,如何解决?
数据平滑(data smoothing)