2019-03-30学习笔记 去重策略

2019-03-31  本文已影响0人  loonytes

爬虫去重策略

  1. 将访问过的url保存到数据库中,效率较低
  2. 将访问过的url保存到set(内存)中,只需要o(1)的代价就可以查询url
    对内存的占用较高
  3. url经过md5等方法哈希后保存到set中 (scrapy使用的)
  4. 用bitmap等方法,将访问过的url通过hash函数映射到某一位
    申请一个8个位,每一个url映射到每一个位上
    有冲突的可能性 哈希解决冲突的方法
  5. bloomfilter方法对bitmap进行改进,多重hash函数降低冲突

部分知识

Python用缩进表示代码块,不使用{}
Python 通常是一行写完一条语句,但如果语句很长,我们可以使用反斜杠()来实现多行语句,例如:

total = item_one + \
        item_two + \
        item_three

输入input()
输出print()

导入模块

在 python 用import或者from...import来导入相应的模块。
将整个模块(somemodule)导入,格式为:import somemodule
从某个模块中导入某个函数,格式为:from somemodule import somefunction
从某个模块中导入多个函数,格式为:from somemodule import firstfunc, secondfunc, thirdfunc
将某个模块中的全部函数导入,格式为:from somemodule import *

sys模块详解:https://www.cnblogs.com/Archie-s/p/6860301.html

上一篇 下一篇

猜你喜欢

热点阅读