2019-06-21爬虫框架

2019-06-21  本文已影响0人  hcc_9bf4
  1. 爬虫框架:

scrapy框架介绍

image.png

Scrapy请求发出去的整个流程

Scrapy运行时,请求发出去的整个流程大概如下:

1.首先爬虫将需要发送请求的url(requests)经引擎交给调度器;

2.排序处理后,经ScrapyEngine,DownloaderMiddlewares(有User_Agent, Proxy代理)交给Downloader;

3.Downloader向互联网发送请求,并接收下载响应.将响应经ScrapyEngine,可选交给Spiders;

4.Spiders处理response,提取数据并将数据经ScrapyEngine交给ItemPipeline保存;

5.提取url重新经ScrapyEngine交给Scheduler进行下一个循环。直到无Url请求程序停止结束。

爬虫项目大概流程:
新建项目:scrapy startproject XXX
明确需要目标/产出:编写item.py
制作爬虫:地址 spider/xxxspider.py
存储内容:pipelines.py

ItemPipeline
-对应的是pipelines文件
爬出提取出数据存入item后。item中 保存的数据需要进一步处理,比如清洗,去重,存储等
pipeline需要处理process_item函数
process_item:
spider提取出来的item作为参数传入,同时传入的参数还有spider
此方法必须实现
必须返回一个item对象,被丢弃的item不会被之后的pipeline处理

上一篇下一篇

猜你喜欢

热点阅读