文本去重
2019-03-05 本文已影响0人
斐小洛
simhash
分词,hash,加权,降维,拿到simhash;计算simhash的海明距离
试用长文本去重,效率高,顺序无关
编辑距离
a变成b的最小操作次数
精确的文字比较,效率低
Jaccard系数
交集大小比并集大小
适用元素类文字比较,顺序无关
最长公共子序列
精确对比,效率低
simhash
分词,hash,加权,降维,拿到simhash;计算simhash的海明距离
试用长文本去重,效率高,顺序无关
编辑距离
a变成b的最小操作次数
精确的文字比较,效率低
Jaccard系数
交集大小比并集大小
适用元素类文字比较,顺序无关
最长公共子序列
精确对比,效率低