Scrapy介绍

2019-12-22 本文已影响0人 redher

什么是Scrapy

Scrapy是一种快速的高级的网络爬虫和数据抓取框架，用于对网站进行爬取并从其页面提取结构化数据，被广泛用于数据挖掘和自动化测试。

安装Scrapy

在Linux、MacOS上直接使用pip安装就可以了。但是在Windows安装会报错，这是由于其依赖的twisted这个异步网络框架在pip安装中出现错误，此时我们可以在一个网站上搜索 twisted 下载下来的是一个wheel格式的文件，我们可以使用pip来安装它。(下载的时候需要注意平台) 然后我们再次使用pip安装scrapy就好了。

框架概览

scrapy框架数据流.png

数据流

Scrapy的爬取以及处理数据的方式就是在上面的组件中来回流动：

引擎从spider中得到一个初始的request来开始爬虫
引擎将请求发送给调度器并且继续要求一个request去爬取
调度器将从引擎得到的请求进行排队，在引擎需要的时候发送给引擎
引擎将请求发送给下载器，期间需要通过下载器请求中间件(process_request())的处理
下载器一旦下载页面完成，会将得到的Response传递给引擎，其中需要通过下载器响应中间件(process_response())的处理
引擎从下载器中得到响应后，会把他们传递给spider来处理，其中需要通过spider输入中间件(process_spider_input())处理
spider得到这个响应并且分析这个响应将其分割为数据和新的请求，其中将数据通过spider输出中间件(process_spider_output())发送给引擎，而新的request直接发送给引擎就像第一步那样。
引擎得到数据并发送给Item Pipelines,而新的请求直接发送给调度器。
重复以上过程直到没有新的请求为止。

接下来

上面介绍了scrapy的基本原理，接下来我以爬取食品安全抽检公布结果查询系统这个网站为例来详细介绍scrapy的使用方法。

Scrapy介绍

什么是Scrapy

安装Scrapy

框架概览

相关概念

数据流

接下来

猜你喜欢

热点阅读