爬虫工具和服务——Python之外的选择
转载自公众号:FightingCoder
在之前介绍过很多爬虫库的使用,其中大多数也是 Python 相关的,当然这些库很多都是给开发者来用的。但这对一个对爬虫没有什么开发经验的小白来说,还是有一定的上手难度的。现在市面上其实也出现了非常多的爬虫服务,如果你仅仅是想爬取一些简单的数据的话,或者懒得写代码的话,其实利用这些工具还是可以非常方便地完成爬取的,那么本文就来总结一下一些比较实用的爬取服务和工具,希望在一定程度上能够帮助你摆脱数据爬取的困扰。
下面总结的一部分工具其实都算是一些爬虫工具的高层封装、实用工具甚至是一些完善的商业服务,包括国内的和国外的。
工具&服务列表
Chrome 扩展
-
Web Scraper:http://webscraper.io/
-
Data Scraper:https://data-miner.io/
-
Listly:https://listly.io/
-
Mercury:https://mercury.postlight.com/
框架
-
Scrapy:https://scrapy.org/
-
PySpider:https://github.com/binux/pyspider
-
Apify:https://sdk.apify.com/
商业服务
-
Parsehub:https://www.parsehub.com/
-
Octparse:https://www.octoparse.com/
-
Content Grabber:http://www.contentgrabber.com/
-
Mozenda:https://www.mozenda.com/
-
ScraperAPI:https://www.scraperapi.com/
-
Diffbot:https://www.diffbot.com/
-
ScrapeStorm https://www.scrapestorm.com/
-
Shenjianshou https://www.shenjian.io/
-
Zaoshu https://zaoshu.io/
下面来对这些工具和服务进行简单的介绍和总结。
Web Scraper
它是一个独立的 Chrome 扩展,安装数目已经到了 20w。它支持点选式的数据抓取,另外支持动态页面渲染,并且专门为 JavaScript、Ajax、下拉拖动、分页功能做了优化,并且带有完整的选择器系统,另外支持数据导出到 CSV 等格式。另外它们还有自己的 Cloud Scraper,支持定时任务、API 式管理、代理切换功能。
imageData Scraper
Data Scraper 同样是一个 Chrome 扩展,它可以将单个页面的数据通过点击的方式爬取到 CSV、XSL 文件中。在这个扩展中已经预定义了 5w 多条规则,可以用来爬取将近 1.5w 个热门网站。
不过这个扩展的使用是有限制的,免费版本每个月只能爬取 500 个页面,更多则需要付费。
imageListly
这同样是一个 Chrome 插件,它可以快速地将网页中的数据进行提取,并将其转化为 Excel 表格导出,操作非常便捷。比如获取一个电商商品数据,文章列表数据等,使用它就可以快速完成。另外它也支持单页面和多页面以及父子页面的采集,值得一试。
imageMercury
这是一个开源的提供自动化解析的工具,使用 JavaScript 编写,同时还提供了 Chrome 扩展工具。利用它我们可以完成页面的智能解析,如自动提取文章标题、正文、发布时间等内容。
另外它开放了源代码,放在了 GitHub,我们可以直接安装使用,使用命令行即可完成页面的智能解析,速度还非常快。
image官网:https://mercury.postlight.com/
Scrapy
这可能是 Python 爬虫学习者使用最多的爬虫框架了,利用这个框架我们可以快速地完成爬虫的开发。而且框架本身性能卓越、可配置化极强,另外开发者社区十分活跃,并且 Scrapy 具有配套的各种插件,几乎可以实现任何站点的爬取逻辑,强烈推荐。
imagePySpider
PySpider 是一个基于 Python 开发的爬虫工具,它带有可视化的管理工具,并且可以通过在线编程的方式完成爬虫的创建和运行。另外它还支持分布式爬取,并支持存储到各种数据库。由于是代码来实现编程,因此其可扩展性还是很强的,简单易用。
imageGitHub:https://github.com/binux/pyspider
Apify
它是一个基于 Node.js 开发的爬虫库,由于是 JavaScript 编写,因此它对 JavaScript 渲染页面的爬取是完全支持的,对接了 Puppeteer、Cheerio。另外其可定制化也非常强,支持各种文件格式的导出,并且支持和 Apify Cloud 的对接实现云爬取。
imageParsehub
ParseHub 是一个基于 Web 的抓取客户端工具,支持 JavaScript 渲染、Ajax 爬取、Cookies、Session 等机制,该应用程序可以分析和从网站获取数据并将其转换为有意义的数据。它还可以使用机器学习技术识别复杂的文档,并能导出为 JSON、CSV、Google 表格等格式的文件。
Parsehub 支持 Windows,Mac 和 Linux,而且可用作Firefox扩展。另外它还支持一些高级功能,如分页,无限滚动页面,弹出窗口和导航。另外还可以将 ParseHub 中的数据可视化为 Tableau。
当然这个也收费的,免费版本限制为 5 个项目,每次限制爬取 200 页。如果付费订阅可以获得 20 个私有项目,每次抓取 10000 个页面,而且支持高级版的 IP 代理切换等功能。
imageDexi.io
Dexi.io,之前称为 CloudScrape。它是一个爬虫的商业服务,它支持可视化点击抓取,而且配有自然语言解析工具使得解析更为精准,所有的抓取配置都在网页端完成,并且可以通过控制台来完成任务的运行和调度。另外它还提供许多代理 IP,还与第三方记性了集成,包括 Box.net、Google Drive 等工具。
这也是收费的,收费标准版是 119 美刀一个月,支持一个 Worker 和基础服务,另外还有更高级别的服务。不过支持免费试用。
imageOctparse
也是一个可视化爬虫工具,支持在网页上进行可视化点选,并且也支持常见的 JavaScript 渲染、Ajax 爬取等等,同样是在云端运行和控制,另外提供了代理服务。
免费版支持创建 10 个爬取,但是提供了最基础的服务,如果想要提供更多的服务如代理切换,则需要购买付费版本,标准版是 75 美金一个月。
imageContent Grabber
Content Grabber 同样也是一个可视化的爬虫工具,同样支持可视化点选,支持 JavaScript 渲染、Ajax 爬取等功能,另外还有验证码识别等解决方案,并使用 Nohodo 作为 IP 代理。数据支持导出常用格式,也支持 PDF 格式导出。
image官网:http://www.contentgrabber.com/
Mozenda
Mozenda 类似,也是基于一个云端爬虫服务,同样支持可视化点选操作。它由两个部分组成,一部分是用来完成数据提取功能,另一部分是 Web 控制台来运行和控制各个爬虫服务。另外它还提供了 FTP、亚马逊 S3、Dropbox 等的支持。
imageScraperAPI
这个站点提供了简易的页面渲染服务,站如其名,其爬取结果都是通过 API 来操作的。该站点提供了许多渲染引擎,我们通过调用提供的 API 并传以不同的参数就可以完成页面的渲染,类似于 Splash。
image官网:https://www.scraperapi.com/
Diffbot
Diffbot 是一个提供智能化解析的站点。例如一个新闻页面,我们不再需要规则即可完成对其中内容的提取,例如标题、正文、发布时间等等。它通过一些机器学习算法、图像识别、自然语言处理等方案综合解析,可以说是目前业界数一数二的页面智能解析方案提供商。
imageImport.io
Import.io 可以说不仅仅是一个提供爬虫服务的网站了,它提供了从数据爬取、清洗、加工到应用的一套完整解决方案,涉及到零售与制造业、数据爬取与加工、机器学习算法、风控等等方案。
imageEmbed.ly
其实 Embed.ly 是提供了自动获取图像,视频,民意调查,幻灯片,音乐,实时视频,表格,GIF,图表等功能的服务,其中和爬虫相关的就是页面解析了。它提供了智能化页面解析方案,类似 Diffbot,可以自动完成页面的解析。
imageScrapeStorm
这个网站提供了一个可视化爬虫工具,支持 Mac、Windows、Linux,工具十分强大,支持自动识别翻页、自动识别内容,另外支持 JavaScript 渲染,另外支持模拟登录爬取等等。
然而我下载下来之后使用了一下,里面居然是后裔采集器?看来是这个站点盗用了了后裔采集器的源码吧。
image官网:https://www.scrapestorm.com/
Shenjianshou
神箭手,这可以说是国内做的数一数二的爬虫平台了,后台的爬虫使用 JavaScript 编写,支持可视化点选、代码编写,另外提供云端爬取,提供了验证码识别、分布式爬取、JavaScript 渲染等功能。
另外神箭手还提供了规则市场、数据标注还有数据 API 服务,,目前还上市了机器学习相关的服务,目前也正朝着智能化发展中。
另外神箭手旗下有一款后裔采集器,就是上文介绍的 ScrapeStorm 所采用的爬取工具,功能很强大,支持智能解析,值得一试。
imageBazhuayu
八爪鱼采集器,可以说是国内比较知名的一款采集器了,功能类似后裔采集器,可以通过可视化点选完成爬虫的相关配置,部分功能比后裔采集器更加强大。
另外官方也提供了规则市场,获取规则以快速完成数据的爬取而不用关心爬取的逻辑。
imageZaoshu
是一家数据爬取服务提供商,不过目前已经不面向于个人用户,主要是提供企业数据服务,其也提供了可视化点选数据爬取服务,也可以通过一些配置完成复杂页面的采集。
image