基于马尔科夫的二元语言模型
2017-07-31 本文已影响72人
yoshino
马尔科夫假设
随意一个词出现的概率只与它前面出现的有限的一个或者几个词有关。
一元语言模型
如果一个词的出现与它周围的词是独立的,那么我们就称之为unigram也就是一元语言模型:
p(s)=p(w_1)p(w_1)p(w_1)\dotsp(w_n)
这个式子成立的条件是有一个假设,就是条件无关假设,我们认为每个词都是条件无关的。
二元语言模型
p(s)=p(w_1)p(w_2|w_1)p(w_3|w_2)\dotsp(w_{i-1}|w_n)
为了计算这个概率可以先进行计数:
c(w_{i-1},w_i) 表示 w_{i-1}和w_i同时出现的次数\
c(w_{i-1}) 表示出现 w_{i-1}的次数\
p(w_{i-1}|w_i)=\frac{c(w_{i-1},w_i)}{c(w_{i-1})}
由此可以求出s的概率了。