Scrapy的乱七八糟

2017-01-09  本文已影响0人  ChangYan

Scrapy是python2.7的一个open source package,目前还不支持py3,安装直接pip install scrapy就可以。

干嘛的?
写爬虫。

使用体会
从backbone开始,到react, angular等一系列前端框架,这次写爬虫用scrapy,深刻体会到一个“束缚性”,the frame calls you, you call the library。当然这不是说框架不好,相反我觉得有两点好处:第一,适合快速上手,毕竟一步一步的都规定好了;第二,效率高。

重点在哪?

scrapy startproject tutorial
scrapy genspider dmoz
scrapy crawl dmoz

熟悉了这几个概念之后就可以开始尝试写一些简单的爬虫了。Scrapy还支持一些特性,比如说item pipeline用于处理item里的数据,feed export用来存储爬取的数据,等等。这些都在文档里,自己去慢慢看吧……

资源

入门推荐学习:https://github.com/scrapy/dirbot
项目地址:https://github.com/scrapy/scrapy
文档:https://doc.scrapy.org/en/latest/

完。

上一篇 下一篇

猜你喜欢

热点阅读