scrapy爬虫框架

2021-10-02 本文已影响0人 Cache_wood

@[toc]
scrapy是一个快速功能强大的网络爬虫框架

pip install scrapy

安装后小测

scrapy -h

爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。
爬虫框架是一个半成品，能够帮助用户实现专业网络爬虫。

分布式、数据流

Engine
控制所有模块之间的数据流
根据条件触发事件
不需要用户修改
Downloader
根据请求下载网页
不需要用户修改
Scheduler
对所有爬取请求进行调度处理
不需要用户修改
Downloader Middleware
目的：实施Engine、Scheduler和Downloader之间进行用户可配置的控制
功能：修改、丢弃、新增请求或响应
用户可以编写配置代码
spider爬虫框架结构
解析Downloader返回的响应（Response）
产生爬取项（scraped item）
产生额外的爬取请求（Request）
需要用户编写配置代码
Item Pipelines
以流水线方式处理Spider产生的爬取项
由一组操作顺序组成，类似流水线，每个操作是一个Item Pipeline类型
可能操作包括：清理、检验和查重爬取项中的HTML数据、将数据存储到数据库
需要用户编写配置代码
Spider Middleware
目的：对请求和爬取项的再处理
功能：修改、丢弃、新增请求或爬取项
用户可以编写配置代码

相同点：
两者都可以进行页面请求和爬取，python爬虫的两个重要技术路线
两者可用性都好，文档丰富，入门简单
两者都没有处理js、提交表单、应对验证码等功能（可拓展）

命令	说明	格式
startproject	创建一个新工程	scrapy startproject <name> [dir]
genspider	创建一个爬虫	scrapy genspider [options] <name> <domain>
settings	获得爬虫配置信息	scrapy settings [options]
crawl	运行一个爬虫	scrapy crawl <spider>
list	列出工程中所有爬虫	scrapy list
shell	启动URL调试命令行	scrapy shell [url]

命令行（不是图形界面）更容易自动化，适合脚本控制。
本质上，scrapy是给程序员用的，功能（而不是界面）更重要