Scrapinghub试用报告
2017-05-16 本文已影响153人
㭍葉
实验对象:scrapinghubs
实验目的:通过体验爬虫工具,进一步加深对数据检索的认识
目录
- scrapinghubs简介
- scrapy cloud试用报告
- 在Scrapyinghub创建工程
- 本地配置并连接到Scrapinghub
- 使用scrapy cloud进行数据爬取
- portia试用报告
- 新建portia工程
- 选择爬取实体
- 导入scrapy cloud
- 总结
1.Scrapinghub简介
scrapinghub首页*简介
scrapinghub 帮助人们将网站转化为数据。
scrapinghub提供基于云的Web爬行平台和数据即服务。
* 以规模爬取网站
Scrapy Cloud是scrapinghub提供的基于云的Web爬行平台,可以方便人们轻松部署抓取工具并按需扩展,无须担心服务器、监控、备份或cron作业。目的是帮助更多的开发人员将网页转化为有价值的数据。
scrapinghub 还提供了丰富的附加组件,例如** protia **使用户无需编写代码,用点击的方式就可以扩展爬虫蜘蛛。其中,Crawlera可以帮助用户绕过反爬虫措施,从而更快的抓取大型网站。爬取的数据可以存储在scrapinghub提供的数据库中,并且可以使用api在应用程序中使用这些数据。
*数据即服务
scrapinghub还有许多网页爬取专家帮助用户爬取数据,用户可以即时访问所需的数据,解决复杂的爬网问题,并且节省时间和金钱。
scrapinghub的产品:
产品竞争对手:
竞争者2. scrapy cloud试用报告
2.1在Scrapinghub创建工程
登陆scrapinghub
scrapinghub支持google+账号登陆和Github账号登陆。
welcome
创建一个工程
create projectcreate
记录Api Key 和 project ID
2.2 本地配置并连接到scrapinghub
安装shub
pip install shub
shub install
shub是Scrapinghub命令行客户端。 它允许您部署项目或依赖关系,计划蜘蛛,并检索刮取的数据或日志,而不用离开命令行。
登陆shub
进入要上传到cloud 的工程目录后,登陆shub并输入api key
shub login
login
上传工程并输入project ID
shub deploy
shub deploy
2.3 使用scrapy cloud进行数据爬取
上传成功
选取一个爬虫并执行
run
执行结果
点击items requests log等可以查看爬取详细信息
结果
设置爬取时间间隔
存储到数据库
database
3.portia试用报告
-
新建portia工程
输入新建爬虫的名字
输入爬取的网址并打开
-
选择爬取实体
通过点击按钮选取页面中需要爬取的实体
-
导入scrapy cloud
可以选择导出代码或导入scrapy cloud
4. 总结
在scrapinghub的试用过程中,我得出了以下感悟:
- scrapy cloud是一款很方便易用的云端数据爬取工具,可以直观看出数据爬取的相关信息,并且可以很方便存储到数据库中。可以手动设置爬取次数和时间间隔,以及配置文件等。
- pordia 可以节省手写代码的时间,但是不适合复杂的数据采集
- 高级功能还是需要付费才能使用的