优秀的 Java 爬虫项目
优秀的 Java 爬虫项目
姓名:陈博伟
学号:19021210926
转载源:https://www.zhihu.com/question/31427895/answer/925220585
嵌牛导读:给大家介绍一些优秀的 Java 爬虫项目。
嵌牛鼻子:Java 爬虫项目
嵌牛提问:GitHub 上有哪些优秀的 Java 爬虫项目?
嵌牛正文:
star:2.1k
webporter 是一个基于垂直爬虫框架webmagic的 Java 爬虫应用,旨在提供一套完整的数据爬取,持久化存储和可视化展示的实践样例。
目前提供了知乎用户数据的爬虫示例,作者还在不定时进行调整和补充。
star:1.1k
股票信息的超级爬虫。雪球网、东方财富、同花顺目前已经提供了很多种股票筛选方式,但是筛选方式是根据个人操作风格来定义的,三个网站有限的筛选方式显然不能满足广大股民、程序员特别是数据分析控的要求。
而XueQiuSuperSpider是一个可以任意拓展,实现任意数据搜集与分析的爬虫程序。
3.gecco
star:1.8k
Gecco是使用Java语言开发的易于使用的轻量级Web爬虫。使用Geccointegriert jsoup,httpclient,fastjson,spring,htmlunit,redission ausgezeichneten框架,配置多个jQuery样式选择器就可以快速地编写爬虫了。
star:1.5k
SeimiCrawler是一个敏捷的,独立部署的,支持分布式的Java爬虫框架。能降低新手开发一个替代高且性能不差的爬虫系统的门性能,并提高开发爬虫系统的开发效率。
在设计思想上受Python的爬虫框架Scrapy启发,同时融合了Java语言本身的特点。
5.电影推荐系统
star:1.1k
这个项目是基于大数据过滤引擎的电影推荐系统,包含爬虫,电影网站(前端和对准),后台管理系统以及推荐系统(Spark)。
star:1.1k
基于springboot的快速学习示例,还整合了一些开源框架,如:rabbitmq(延迟队列)、Kafka、jpa、redies、oauth2、swagger、jsp、docker、spring-batch、异常处理、日志输出、多模块开发、多环境打包、缓存cache、爬虫、jwt、dubbo和Async等等。
一个基于Java的高性能,免费HTTP代理池,支持横向扩展,分布式抓取爬虫项目。主要功能是抓取知乎用户,主题,问题,答案,文章等数据。比如:
8.FreeBook
基于MVP模式开发的带缓存网络爬虫,采用最流行框架构造,可以免费下载电子书,非常适合准备毕业设计的同学~
最后,提醒大家,如果你没有打好Java基础,这些爬虫项目做起来会比较难。在做之前,你可以再去学习一遍Java基础,以达到事半功倍的效果:
戳链接免费试听后加微信jiuzhangsuanfa5,发送课程试听截图+【知乎Java】,还能免费获取Java大礼包哟~