python爬虫攻防

python3爬虫--入门篇3--url去重策略

2019-01-08 本文已影响0人布口袋_天晴了

1.访问过的url保存到数据库中 [频繁存取，时间消耗高]

2.将访问过的url保存到set中，只需要o(1)的代价 [内存的占用量会较高]

3.url经过md5等哈希后保存到set中。 [Scrapy默认采用md5方法压缩url的，内存占用会大大减小]

4.用bitmap方法，将访问过的url通过hash函数映射到某一位 [压缩更多，极大节省内存，但哈希冲突的可能性还是比较大]

5.bloomfilter方法对bitmap进行改进，多重hash函数降低冲突 [极大节省内容，又很大程度上避免了冲突]

上一篇下一篇

猜你喜欢

热点阅读