转行学 Python爬虫世界爬虫工具

50 种最棒的开源爬虫框架/项目

2019-04-29  本文已影响120人  苏克1900

作者:Prowebscraper 博客

摘要: 说起爬虫框架,你可能会马上脱口而出:「 Scrapy 或者 Pyspider」,甚至你可能认为只有 Python 才能爬虫。其实还有很多好用的开源爬虫框架,也绝不仅仅只有 Python 才能写爬虫,大多数热门语言都可以做。

总之,开源Web爬虫纷繁多样,下面按照所用程语言,罗列五十种最好的开源爬虫框架,每一个各具特长,适用于不同场景和用户需求。下面来一睹为快。

点击查看大图

Python编写的开源Web爬虫

1. Scrapy

img

简介

特性

官方文档https://docs.scrapy.org/en/latest/

官方网站https://scrapy.org/

2. Cola

简介

特性

官方文档https://github.com/chineking/cola

官方网站https://pypi.org/project/Cola/

3. Crawley

简介

特性

官方文档https://pythonhosted.org/crawley/

官方网站http://project.crawley-cloud.com/

4. MechanicalSoup

简介

特性

官方文档https://mechanicalsoup.readthedocs.io/en/stable/

官方网站https://mechanicalsoup.readthedocs.io/

5. PySpider

简介

特性

官方文档http://docs.pyspider.org/

官方网站https://github.com/binux/pyspider

6. Portia

img

简介

特性

官方文档https://portia.readthedocs.io/en/latest/index.html

官方网站https://github.com/scrapinghub/portia

7. Beautifulsoup

img

简介

特性

官方文档https://www.crummy.com/software/BeautifulSoup/bs4/doc/

官方网站https://www.crummy.com/software/BeautifulSoup/

8. Spidy爬虫

img

简介

特性

官方文档https://github.com/rivermont/spidy

官方网站http://project.crawley-cloud.com/

9. Garb

简介

特性

官方文档https://grablib.org/en/latest/

官方网站https://github.com/lorien/grab

Java编写的开源Web爬虫

10. Apache Nutch

img

简介

特性

官方文档https://wiki.apache.org/nutch/

官方网站http://nutch.apache.org/

11. Heritrix

简介

特性

官方文档https://github.com/internetarchive/heritrix3/wiki/Heritrix%203.0%20and%203.1%20User%20Guide

官方网站https://github.com/internetarchive/heritrix3b

12. ACHE爬虫

img

简介

特性

官方文档http://ache.readthedocs.io/en/latest/

官方网站https://github.com/ViDA-NYU/ache

13. Crawler4j

简介

官方文档https://github.com/yasserg/crawler4j

官方网站https://github.com/yasserg/crawler4j

14. Gecco

简介

特性

官方文档https://github.com/xtuhcy/gecco

官方网站https://github.com/xtuhcy/gecco

15. BUbiNG

简介

特性

官方文档http://law.di.unimi.it/software/bubing-docs/index.html

官方网站http://law.di.unimi.it/software.php#bubing

16. Narconex

img

简介

特性

官方文档http://www.norconex.com/collectors/collector-http/getting-started

官方网站http://www.norconex.com/collectors/collector-http/

17. WebSPHINX

img

简介

特性

官方文档https://www.cs.cmu.edu/~rcm/websphinx/doc/index.html

官方网站https://www.cs.cmu.edu/~rcm/websphinx/#about

18. Spiderman

简介

特性

官方网站https://gitee.com/l-weiwei/spiderman

19. WebCollector :

简介

特性

官方文档https://github.com/CrawlScript/WebCollector

官方网站https://github.com/CrawlScript/WebCollector

20. Webmagic

img

简介

特性

官方文档http://webmagic.io/docs/en/

官方网站https://github.com/code4craft/webmagic

21. StormCrawler

img

简介

特性

官方文档http://stormcrawler.net/docs/api/

官方网站http://stormcrawler.net/

JavaScript编写的开源Web爬虫

22. NodeCrawler

img

简介

特性

官方文档https://github.com/bda-research/node-crawler

官方网站http://nodecrawler.org/

23. Simplecrawler

简介

特性

官方文档https://github.com/simplecrawler/simplecrawler

官方网站https://www.npmjs.com/package/simplecrawler

24. Js-crawler :

简介

官方文档https://github.com/antivanov/js-crawler

官方网站https://github.com/antivanov/js-crawler

25. Webster

简介

官方文档http://webster.zhuyingda.com/

官方网站https://github.com/zhuyingda/webster

26. Node-osmosis

简介
* 一种使用NodeJS实现的HTML/XML解析器和Web爬虫。

特性

官方文档https://rchipka.github.io/node-osmosis/global.html

官方网站https://www.npmjs.com/package/osmosis

27. Supercrawler

简介

特性

官方文档https://github.com/brendonboshell/supercrawler

官方网站https://github.com/brendonboshell/supercrawler

28. Web scraper的Chrome扩展

简介

特性

官方文档https://www.webscraper.io/documentation

官方网站https://www.webscraper.io

29. Headless Chrome爬虫

img

简介

特性

官方文档https://github.com/yujiosaka/headless-chrome-crawler/blob/master/docs/API.md

官方网站https://github.com/yujiosaka/headless-chrome-crawler

30. X-ray

img

特性

官方文档https://github.com/matthewmueller/x-ray

官方网站https://www.npmjs.com/package/x-ray-scraper

C编写的开源Web爬虫

31. Httrack

img

简介

特性

官方文档http://www.httrack.com/html/index.html

官方网站http://www.httrack.com/

32. GNU Wget

img

简介

特性

官方文档https://www.gnu.org/software/wget/manual/

官方网站https://www.gnu.org/software/wget/

C++编写的开源Web爬虫

33. gigablast

简介

特性

官方文档http://www.gigablast.com/api.html

官方网站http://www.gigablast.com/

C#编写的开源Web爬虫

34. Arachnode.net

简介

特性

官方文档https://documentation.arachnode.net/index.html

官方网站http://arachnode.net/

35. Abot

简介

特性

官方文档https://github.com/sjdirect/abot

官方网站https://github.com/sjdirect/abot

36. Hawk

简介

特性

官方文档https://github.com/ferventdesert/Hawk

官方网站https://ferventdesert.github.io/Hawk/

37. SkyScraper

简介

官方文档https://github.com/JonCanning/SkyScraper

官方网站https://github.com/JonCanning/SkyScraper

.NET编写的Web爬虫

38. DotnetSpider

简介

官方文档https://github.com/dotnetcore/DotnetSpider/wiki

官方网站https://github.com/dotnetcore/DotnetSpider

PHP编写的开源Web爬虫

39. Goutte

简介

官方文档https://goutte.readthedocs.io/en/latest/

官方网站https://github.com/FriendsOfPHP/Goutte

40. Dom-crawler

简介

官方文档https://symfony.com/doc/current/components/dom_crawler.html

官方网站https://github.com/symfony/dom-crawler

41. Pspider

简介

官方文档https://github.com/hightman/pspider

官方网站https://github.com/hightman/pspider

42. Php-spider

简介

特性

官方文档https://github.com/mvdbos/php-spider

官方网站https://github.com/mvdbos/php-spider

43. Spatie / Crawler

简介

官方文档https://github.com/spatie/crawler

官方网站https://github.com/spatie/crawler

Ruby实现的开源Web爬虫

44. Mechanize

简介

官方文档http://docs.seattlerb.org/mechanize/

官方网站https://github.com/sparklemotion/mechanize

GO编写的开源Web爬虫

45. Colly

img

简介

特性

官方文档http://go-colly.org/docs/

官方网站http://go-colly.org/

46. Gopa

特性

官方文档https://github.com/infinitbyte/gopa

官方网站https://github.com/infinitbyte/gopa

47. Pholcus

img

简介

特性

官方文档https://pholcus.gitbooks.io/docs/

官方网站https://github.com/henrylee2cn/pholcus

R编写的开源Web爬虫

48. Rvest

简介

官方文档https://cran.r-project.org/web/packages/rvest/rvest.pdf

官方网站https://github.com/hadley/rvest

Scala编写的开源Web爬虫

49. Sparkler

简介

特性

官方文档http://irds.usc.edu/sparkler/dev/development-environment-setup.html#contributing-source

官方网站http://irds.usc.edu/sparkler/

Perl编写的开源Web爬虫

50. Web-scraper

简介

官方文档https://github.com/miyagawa/web-scraper

官方网站https://github.com/miyagawa/web-scraper

小结

以上罗列了 50 个不同编程语言下的不错爬虫框架/项目,感兴趣可以用用看。

英文原文: http://www.prowebscraper.com/blog/50-best-open-source-web-crawlers/

欢迎关注我的公众号:高级农民工,博客:高级农民工,阅读体验更好。

上一篇 下一篇

猜你喜欢

热点阅读