python爬虫攻防

python3爬虫--入门篇3--url去重策略

2019-01-08  本文已影响0人  布口袋_天晴了

1.访问过的url保存到数据库中   [频繁存取,时间消耗高]

2.将访问过的url保存到set中,只需要o(1)的代价    [内存的占用量会较高]

3.url经过md5等哈希后保存到set中。   [Scrapy默认采用md5方法压缩url的,内存占用会大大减小]

4.用bitmap方法,将访问过的url通过hash函数映射到某一位   [压缩更多,极大节省内存,但哈希冲突的可能性还是比较大]

5.bloomfilter方法对bitmap进行改进,多重hash函数降低冲突     [极大节省内容,又很大程度上避免了冲突]

上一篇 下一篇

猜你喜欢

热点阅读