识别-实体识别
2020-01-14 本文已影响0人
吉林天师
定义:将描述相同真实世界的不同实体数据对象识别出来
处理流程
识别-实体识别算法实现
相似度计算算法:基于字段相似度(Jaccard相似度、TF-IDF-余弦相似度,基于q-grams的相似度)基于编辑距离相似度(Levenshtein距离算法、Jaro算法)混合相似度(Jaccard 相似度算法一种添加相似token,一种加权、Monge-Elkan相似度、Soft TF-IDF)数值型数据相似度算法(数字型相似度,一种是精确距离,一种是范围距离算法、日期型相似度算法,价格型相似度算法)
机器学习算法
实体识别的分块技术-查全,查准你
1.分块键的定义(前缀、组合多属性:省市区、单词发音、token的多键值)
2.分块键的编码(soundex 、phonex编码算法、Phonix编码算法、NYSIIS、Double-Megaphone、Fuzzy Soundex编码)
具体方法:机器学习的一些方法