scrapy(三)setting

2018-06-26  本文已影响0人  秦琴er

在settings.py配置文件中开启下载中间件的功能,默认是关闭的

开启中间键

简单使用了一下如何使用scrapy爬取网站的方法,但其他都没有设置,这样很容易被反爬机制发现,所以在scrapy模板setting中设置

#下载延时时间会在5秒上下波动

DOWNLOAD_DELAY = 5

#这个是设置对域名发起请求时,只有一个,防止被发现,也可以设置多个

CONCURRENT_REQUESTS_PER_DOMAIN = 1

在settings配置文件中有一个ITEM_PIPELINES的配置参数,例子如下:

ITEM_PIPELINES = {

'myproject.pipelines.PricePipeline':300,

'myproject.pipelines.JsonWriterPipeline':800,

}

每个pipeline后面有一个数值,这个数组的范围是0-1000,这个数值确定了他们的运行顺序,数字越小越优先

上一篇 下一篇

猜你喜欢

热点阅读