爬虫scrapy体验

2019-02-18 本文已影响0人探索者_逗你玩儿

scrapy作为爬虫界的扛把子，功能强大自不用说，还有支持分布式，平时我们在使用的时候总是开箱即用，没有细细去研究其中的各种细节，今天我们来仔细剖析一下，scrapy是如何工作的。在开始撸代码之前我们先熟悉一下scrpay的命令。
scrapy startproject 创建一个空白的scrapy工程
scrapy genspider 通过模版生成具体的爬虫
scrapy fetch URL 通过内置的爬虫将给定URL的内容下载并打开
scrapy view URL 将给定URL的内容下载到本地并通过浏览器打开下载的内容
scrapy runspider 执行已经定义好的爬虫
scrapy bench 测试运行效率
scrapy shell URL 创建一个可以进行调试的交互控制台可以对需要爬取的url进行调试
scrapy工程创建完成以后需要定制属于自己的项目，那么对于具体的项目scrapy也提供了相应的命令工具下面我们具体分析以下
scrapy crawl xxxspider 启动运行爬虫
scrapy check xxxspider 对项目进行检查是否存在错误
scrapy list 列出所有的爬虫
scrapy edit xxxspider 对爬虫进行修改编辑
scrapy parse URL 获取给定的URL使用相应的spider分析处理
scrapy deploy 将spider进行部署

爬虫scrapy体验

猜你喜欢

热点阅读