简友广场想法

scrapy爬虫框架

2021-10-02  本文已影响0人  Cache_wood

@[toc]
scrapy是一个快速功能强大的网络爬虫框架

scrapy的安装

pip install scrapy

安装后小测

scrapy -h

scrapy爬虫框架结构

爬虫框架是实现爬虫功能的一个软件结构和功能组件集合。
爬虫框架是一个半成品,能够帮助用户实现专业网络爬虫。

分布式、数据流


requests库和scrapy爬虫的比较

相同点:
两者都可以进行页面请求和爬取,python爬虫的两个重要技术路线
两者可用性都好,文档丰富,入门简单
两者都没有处理js、提交表单、应对验证码等功能(可拓展)

requests scrapy
页面级爬虫 网站级爬虫
功能库 框架
并发性考虑不足,性能较差 并发性好,性能较高
重点在于页面下载 重点在于爬虫结构
定制灵活 一般定制灵活,深度定制困难
上手十分简单 入门稍难

scrapy常用命令

命令 说明 格式
startproject 创建一个新工程 scrapy startproject <name> [dir]
genspider 创建一个爬虫 scrapy genspider [options] <name> <domain>
settings 获得爬虫配置信息 scrapy settings [options]
crawl 运行一个爬虫 scrapy crawl <spider>
list 列出工程中所有爬虫 scrapy list
shell 启动URL调试命令行 scrapy shell [url]

scrapy爬虫的命令行逻辑

命令行(不是图形界面)更容易自动化,适合脚本控制。
本质上,scrapy是给程序员用的,功能(而不是界面)更重要

上一篇 下一篇

猜你喜欢

热点阅读