关于Scrapy

2017-09-11  本文已影响0人  idri
image.png

Requests
Responses

Downloaders Middlewares
Spider Middlewares

1、Engine向spider请求第一个URL
2、Engine获取URL拿给调度器(scheduler)调度
3、Engine向Scheduler请求下一个要爬取的URL
4、Scheduler返回URL给Engine,Engine通过Downloader Middlewares转发给Downloader这个Request
5、下载完毕,Downloader生成Response通过DM发给Engine
6、Engine接受Response通过Spider Middlewares发给Spider
7、Spider处理Response并返回爬取的Items、Request发送给Engine
8、Engine将Items发送给Item Pipeline,将Request发送给Scheduler
9、重复2,直到Spider中Request全部处理完毕

items:包含item
pipelines:对item处理,清洗、验证、持久化
setting:配置middlewares
spiders>
start_request:返回request给Scheduler
parse:解析页面,返回item给pipelines

其他处理:cookies middleware

上一篇 下一篇

猜你喜欢

热点阅读