识别-实体识别

2020-01-14  本文已影响0人  吉林天师

定义:将描述相同真实世界的不同实体数据对象识别出来

处理流程

识别-实体识别

算法实现

相似度计算算法:基于字段相似度(Jaccard相似度、TF-IDF-余弦相似度,基于q-grams的相似度)基于编辑距离相似度(Levenshtein距离算法、Jaro算法)混合相似度(Jaccard 相似度算法一种添加相似token,一种加权、Monge-Elkan相似度、Soft TF-IDF)数值型数据相似度算法(数字型相似度,一种是精确距离,一种是范围距离算法、日期型相似度算法,价格型相似度算法)

机器学习算法

实体识别的分块技术-查全,查准你

1.分块键的定义(前缀、组合多属性:省市区、单词发音、token的多键值)

2.分块键的编码(soundex 、phonex编码算法、Phonix编码算法、NYSIIS、Double-Megaphone、Fuzzy Soundex编码)

具体方法:机器学习的一些方法

上一篇 下一篇

猜你喜欢

热点阅读