Python爬虫第七天：多线程爬虫|Scrapy框架

2018-10-17 本文已影响603人 Davis_hang

内容简述:

一:多线程爬虫

二:Scrapy框架

一:多线程爬虫原理

【示例见代码】

二:Scrapy框架

定义:Scrapy是基于Python实现，方便爬取网站数据、提取结构性数据的应用框架。

底层:使用Twisted异步网络框架来处理网络通讯，加快下载速度。

不用手动实现异步框架，包含了多种中间件接口，非常灵活。

Scrapy运行架构流程图:

组件说明:

Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据传递等。

Scheduler(调度器): 负责接收引擎发送过来的Request请求，并按照一定的方式进行整理排列，入队，当引擎需要时，交还给引擎。

Downloader（下载器）：负责下载引擎发送的所有Requests请求，并将其获取到的Responses交还给引擎，由引擎交给Spider来处理。

Spider（爬虫）：负责处理所有Responses,分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入调度器

Item Pipeline(管道)：负责处理Spider中获取到的Item，并进行后期处理（如详细分析、过滤、存储等）.

Downloader Middlewares（下载中间件）：类似一个可以自定义扩展下载功能的组件。

Spider Middlewares（Spider中间件）：类似一个可以自定扩展和操作引擎和Spider中间通信的功能组件（比如进入Spider的Responses以及从Spider出去的Requests）

简单使用：(安装)pip3 install scrapy

（1）创建项目scrapy startproject spider1(项目名称)

（2）目录结构

spider1

spiders 爬虫目录（写代码位置）

__init__.py

lala.py 爬虫文件

__init__.py

items.py 定义数据结构地方

middlewares.py 中间件

pipelines.py 管道文件

settings.py 项目配置文件

scrapy.cfg

通过指令创建爬虫文件

cd spider1/spider1

scrapy genspider qiubai"www.qiushibaike.com"

此时在spider1/spider1/spiders里面自动创建一个qiubai.py

name:爬虫的名字，启动的时候根据爬虫的名字启动项目

allowed_domains：允许的域名。意思是爬取的时候这个请求要不要发送，如果是该允许域名下的url，就会发送，否则过滤掉这个请求。【列表允许多个域名】

start_urls：爬虫起始url，是一个列表，里面可以写多个，一般只写一个

def parse(self, response):写代码的入口，parse函数名是固定。当收到下载数据时系统会自动调用

参数response，是一个响应对象，可从中获取html字符串，然后解析之。

【温馨提示】这个parse函数必须返回一个可迭代对象

（3）定制items.py，个性化定义数据结构格式。

（4）运行-打印response对象测试下

来到终端下：

cd spider1/ spider1/spiders

scrapy crawl qiubai

根据response获取网页内容

response.text 字符串类型 response.body二进制类型

（5）运行，直接通过命令导出json格式

scrapy crawl qiubai -o qiubai.json

scrapy crawl qiubai -o qiubai.xml

scrapy crawl qiubai -o qiubai.csv

【注】window 安装问题参考

pip install Scrapy

building 'twisted.test.raiser' extension

error: Microsoft Visual C++ 14.0 is required.Get it with "Microsoft Visual C++ BuildTools": http://landinghub.visualstudio.com/visual-cpp-build-tools

解决方案:

http://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted

下载twisted对应版本的whl文件（如我的Twisted-17.5.0-cp36-cp36m-win_amd64.whl），cp后面是python版本，amd64代表64位，运行命令：

pip install C:\Users\CR\Downloads\Twisted-17.5.0-cp36-cp36m-win_amd64.whl

pip install Scrapy

Python爬虫第七天：多线程爬虫|Scrapy框架

猜你喜欢

热点阅读