实习日记:海量中文文本数据去重算法及实现

2018-01-10 本文已影响910人 SHAN某人

在某视频公司实习的时候遇到一个问题，也不算海量吧，200万左右的短中文文本数据去重，然后在Elasticsearch中重建索引。

感谢参考链接中提到还有很多没有提到的博客文章的技术分享，小白小生还是学到了不少东西，在这里做一下记录。

文本去重有两策略，其一是通过 MD5 等给文本生成数字证书，这样做叫 “一致性” check。其二是计算文本间的相似度，这种做法是 “相似性” check

显然 “一致性” check 并不能很好的满足文本查重去重，而对于 “相似性” check,有很多经典的算法

段子评论去重

去重本应该根据相似度去重的，根据的算法原理为 simhash 和抽屉原理，simhash 加海明距离确定是否相似，一般认为海明距离在4以内（小于等于3）为相似，我们的数据大概在 200万条，如果一一比较海明，时间复杂度是挺大的，在（1+n）n/2 O(n^2),利用抽屉原理，<K,V>数据库存四份，每份K 为 16 bit 的hash 码值，一共 2^16个K值，V为对应 K的剩下三个 16bit 的list 链，这时如果来了一个新的 64 bit 的simhash码，分成四份，遍历四份<K,V> 数据库，如果都没找到相同的K，则可以认为改文本在库中没有相似文本，然后将其put 进四份<K,V>数据库中，若找到相同的K，则遍历比较V上的list 的海明距离，若海明距离在4以内则丢弃。采用这种做法时间需要利用额外的空间，这个空间只利用内存来做在 10G左右，所以需要额外的数据库辅助，好处是降低了时间成本。

海明距离
两个码字的对应比特取值不同的比特数称为这两个码字的海明距离。在一个有效编码集中,任意两个码字的海明距离的最小值称为该编码集的海明距离。举例如下：10101和00110从第一位开始依次有第一位、第四、第五位不同，则海明距离为3。

参考链接:

经典算法1---相似度--模糊查询，查抄袭，语言识别
 短文本合并重复（去重）的简单有效做法
 海量数据相似度计算之simhash短文本查找
 我的数学之美系列二 —— simhash与重复信息识别
 海量数据相似度计算之simhash和海明距离
 LSH 位置敏感哈希算法
 http://blog.csdn.net/al_xin/article/details/38919361
https://zhuanlan.zhihu.com/p/22936654
http://blog.csdn.net/heiyeshuwu/article/details/69706414

实习日记:海量中文文本数据去重算法及实现

段子评论去重

猜你喜欢

热点阅读

实习日记:海量中文文本数据去重 算法及实现

段子评论去重

猜你喜欢

热点阅读

实习日记:海量中文文本数据去重算法及实现