n-gram

2018-12-19  本文已影响0人  徐振杰

n-gram的数据平滑方法

  1. 拉普拉斯平滑:缺点都在分子上加一,而大部分n-gram都是没有出现过的,这样就会给他们分配过多的概率空间
  2. add-K:也就是加一个小于一的k,这样虽然比拉普拉斯平滑要好,但是要人工确定
  3. 内插法:他的理由是既然高阶的n-gram可能为哦,那么低阶的n-gram应该不会是零,所以高阶的可以由低阶的加权平均。
  4. 回溯法:尽可能用高阶的n-gram,但是如果高阶的n-gram不存在,那么就用低阶的n-gram再乘上一个\alpha

n-gram

上一篇 下一篇

猜你喜欢

热点阅读