嵌牛IT观察

优秀的 Java 爬虫项目

2019-12-10  本文已影响0人  博伟_409f

优秀的 Java 爬虫项目

姓名:陈博伟

学号:19021210926

转载源:https://www.zhihu.com/question/31427895/answer/925220585

嵌牛导读:给大家介绍一些优秀的 Java 爬虫项目。

嵌牛鼻子:Java 爬虫项目

嵌牛提问:GitHub 上有哪些优秀的 Java 爬虫项目?

嵌牛正文:

1.webporter

star:2.1k

webporter 是一个基于垂直爬虫框架webmagic的 Java 爬虫应用,旨在提供一套完整的数据爬取,持久化存储和可视化展示的实践样例。

目前提供了知乎用户数据的爬虫示例,作者还在不定时进行调整和补充。

2.XueQiuSuperSpider

star:1.1k

股票信息的超级爬虫。雪球网、东方财富、同花顺目前已经提供了很多种股票筛选方式,但是筛选方式是根据个人操作风格来定义的,三个网站有限的筛选方式显然不能满足广大股民、程序员特别是数据分析控的要求。

而XueQiuSuperSpider是一个可以任意拓展,实现任意数据搜集与分析的爬虫程序。

3.gecco

star:1.8k

Gecco是使用Java语言开发的易于使用的轻量级Web爬虫。使用Geccointegriert jsoup,httpclient,fastjson,spring,htmlunit,redission ausgezeichneten框架,配置多个jQuery样式选择器就可以快速地编写爬虫了。

4.SeimiCrawler

star:1.5k

SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架。能降低新手开发一个替代高且性能不差的爬虫系统的门性能,并提高开发爬虫系统的开发效率。

在设计思想上受Python的爬虫框架Scrapy启发,同时融合了Java语言本身的特点。

5.电影推荐系统

star:1.1k

这个项目是基于大数据过滤引擎的电影推荐系统,包含爬虫,电影网站(前端和对准),后台管理系统以及推荐系统(Spark)。

6.spring-boot-quick

star:1.1k

基于springboot的快速学习示例,还整合了一些开源框架,如:rabbitmq(延迟队列)、Kafka、jpa、redies、oauth2、swagger、jsp、docker、spring-batch、异常处理、日志输出、多模块开发、多环境打包、缓存cache、爬虫、jwt、dubbo和Async等等。

7.知乎crawler

一个基于Java的高性能,免费HTTP代理池,支持横向扩展,分布式抓取爬虫项目。主要功能是抓取知乎用户,主题,问题,答案,文章等数据。比如:

8.FreeBook

基于MVP模式开发的带缓存网络爬虫,采用最流行框架构造,可以免费下载电子书,非常适合准备毕业设计的同学~

最后,提醒大家,如果你没有打好Java基础,这些爬虫项目做起来会比较难。在做之前,你可以再去学习一遍Java基础,以达到事半功倍的效果:

Java基础入门知识讲解

戳链接免费试听后加微信jiuzhangsuanfa5,发送课程试听截图+【知乎Java】,还能免费获取Java大礼包哟~

上一篇下一篇

猜你喜欢

热点阅读