scrapy的url去重设置

2019-01-30 本文已影响0人萌木盖

是这样的，我想抓取页面更新的东西，
我在spider里写了一个parse方法，用sleep（300），每隔5分钟再爬一次，
我在这个方法加上一句，yield Request(url=response.url,callback=self.parse),这样来实现循环调用这个方法，可是scrapy默认的去重机制让这个循坏失败。
所以这里函数内加上一个参数

加上第三个参数dont_filter = True
Request(url,callback,dont_filter=True)

即可。

scrapy的url去重设置

猜你喜欢

热点阅读