ES 词频工具调研

2019-04-12  本文已影响0人  游戏三昧

最近在做nlp 相关的事情,分词,过滤,词频统计需要做一些工程,这些其实和es 的分析器做类似的事情,调研es 看是否能减少工作量。

es 的 termvector api 可提供查询文档各field 的分词明细 和 在整个库里的统计信息,但是无法提供全量的统计信息,这类接口提供查询特定文档下各词的信息。

如果需要反向查 词对应的 文档信息应该使用search 接口, 可以通过接口返回所有词的词频结果。

分词可以提供自定义的分词器,或者分好词后入库用空格处理。

上一篇 下一篇

猜你喜欢

热点阅读