n-gram
2018-12-19 本文已影响0人
徐振杰
n-gram的数据平滑方法
- 拉普拉斯平滑:缺点都在分子上加一,而大部分n-gram都是没有出现过的,这样就会给他们分配过多的概率空间
- add-K:也就是加一个小于一的k,这样虽然比拉普拉斯平滑要好,但是要人工确定
- 内插法:他的理由是既然高阶的n-gram可能为哦,那么低阶的n-gram应该不会是零,所以高阶的可以由低阶的加权平均。
- 回溯法:尽可能用高阶的n-gram,但是如果高阶的n-gram不存在,那么就用低阶的n-gram再乘上一个