CrawlSpider爬虫的案例（二十二）

2019-08-01 本文已影响0人梦捷者

一、spider文件

注意点：

当follow=True的时候表示在当前页面上会继续跟进链接继续请求并返回响应源代码。
每请求回来的网页源代码都会匹配rules里面的所有规则，看其是否符合规则。

二、piplines文件

三、CrawlSpider具有去重机制（Scrapy的去重机制，以下代码是其源代码，不是编写的）

上一篇下一篇

猜你喜欢

热点阅读