爬虫scrapy体验
2019-02-18 本文已影响0人
探索者_逗你玩儿
scrapy作为爬虫界的扛把子,功能强大自不用说,还有支持分布式,平时我们在使用的时候总是开箱即用,没有细细去研究其中的各种细节,今天我们来仔细剖析一下,scrapy是如何工作的。在开始撸代码之前我们先熟悉一下scrpay的命令。
scrapy startproject 创建一个空白的scrapy工程
scrapy genspider 通过模版生成具体的爬虫
scrapy fetch URL 通过内置的爬虫将给定URL的内容下载并打开
scrapy view URL 将给定URL的内容下载到本地并通过浏览器打开下载的内容
scrapy runspider 执行已经定义好的爬虫
scrapy bench 测试运行效率
scrapy shell URL 创建一个可以进行调试的交互控制台可以对需要爬取的url进行调试
scrapy工程创建完成以后需要定制属于自己的项目,那么对于具体的项目scrapy也提供了相应的命令工具下面我们具体分析以下
scrapy crawl xxxspider 启动运行爬虫
scrapy check xxxspider 对项目进行检查是否存在错误
scrapy list 列出所有的爬虫
scrapy edit xxxspider 对爬虫进行修改编辑
scrapy parse URL 获取给定的URL使用相应的spider分析处理
scrapy deploy 将spider进行部署