搜索引擎@IT·互联网程序员

Scrapinghub试用报告

2017-05-16  本文已影响153人  㭍葉

实验对象:scrapinghubs
实验目的:通过体验爬虫工具,进一步加深对数据检索的认识

目录
  1. scrapinghubs简介
  2. scrapy cloud试用报告
  1. portia试用报告
  1. 总结

1.Scrapinghub简介

scrapinghub首页

*简介

scrapinghub 帮助人们将网站转化为数据。
scrapinghub提供基于云的Web爬行平台和数据即服务。

* 以规模爬取网站

Scrapy Cloud是scrapinghub提供的基于云的Web爬行平台,可以方便人们轻松部署抓取工具并按需扩展,无须担心服务器、监控、备份或cron作业。目的是帮助更多的开发人员将网页转化为有价值的数据。
scrapinghub 还提供了丰富的附加组件,例如** protia **使用户无需编写代码,用点击的方式就可以扩展爬虫蜘蛛。其中,Crawlera可以帮助用户绕过反爬虫措施,从而更快的抓取大型网站。爬取的数据可以存储在scrapinghub提供的数据库中,并且可以使用api在应用程序中使用这些数据。

*数据即服务

scrapinghub还有许多网页爬取专家帮助用户爬取数据,用户可以即时访问所需的数据,解决复杂的爬网问题,并且节省时间和金钱。

scrapinghub的产品:
产品
竞争对手:
竞争者

2. scrapy cloud试用报告

2.1在Scrapinghub创建工程

登陆scrapinghub

scrapinghub支持google+账号登陆和Github账号登陆。


welcome
创建一个工程
create project
create

记录Api Key 和 project ID

2.2 本地配置并连接到scrapinghub

安装shub

pip install shub
shub install

shub是Scrapinghub命令行客户端。 它允许您部署项目或依赖关系,计划蜘蛛,并检索刮取的数据或日志,而不用离开命令行。

登陆shub

进入要上传到cloud 的工程目录后,登陆shub并输入api key

shub login
login

上传工程并输入project ID

shub deploy

shub deploy

2.3 使用scrapy cloud进行数据爬取

上传成功



选取一个爬虫并执行



run
执行结果

点击items requests log等可以查看爬取详细信息


结果
设置爬取时间间隔

存储到数据库



database

3.portia试用报告

4. 总结

在scrapinghub的试用过程中,我得出了以下感悟:

上一篇下一篇

猜你喜欢

热点阅读