地址分词
2019-01-02 本文已影响0人
彭强兵
地址分词和传统的NLP有很大区别。
基于地址分词和词性标注,可用在仓储物流系统,实现AI自动化,也可用在标准地址库建设中,实现地址标准化。
传统NLP技术用在地址分词上正确率和召回率都很低,对于地址“上海市上海市斜土路768号22层C座”,传统分词器切分结果如下,如果进行地址分词和词性标注,正确率是很低的。而专门的地址分词和词性标注系统能达到地址分词和词性标注准确率在99.1以上。
word分词器 的分词结果:上海市 上海市 斜土路 768号 22层 C 座
Stanford分词器 的分词结果:上海市 上海市 斜 土路 768 号 22 层 C座
Ansj分词器 的分词结果:上海市 上海市斜土路 768号 22层 c 座
HanLP分词器 的分词结果:上海市 上海市 斜 土路 768 号 22 层 C 座
smartcn分词器 的分词结果:上海市 上海市 斜 土路 768 号 22 层 c 座
FudanNLP分词器 的分词结果:上海市 上海市 斜土路 768号 22层 C座
Jieba分词器 的分词结果:上海市 上海市 斜土路 768 号 22 层 c座
Jcseg分词器 的分词结果:上海市 上海市 斜 土 路 768 号 22 层 c座
MMSeg4j分词器 的分词结果:上海市 上海市 斜 土 路 768 号 22 层 c 座
IKAnalyzer分词器 的分词结果:上海市 上海市 斜土路 768号 22层 c 座