计算机毕业设计吊打导师hadoop+spark+hive动漫推荐

2024-01-30  本文已影响0人  计算机毕业设计大全

流程:
1.DrissionPage+Selenium自动爬虫工具采集漫画视频、详情、标签等约200万条漫画数据存入mysql数据库;
2.Mapreduce对采集的动漫数据进行数据清洗、拆分数据项等,转为.csv文件上传hadoop的hdfs集群;
3.hive建库建表导入.csv动漫数据;
4.一半指标使用hive_sql分析得出,一半指标使用Spark之Scala完成;
5.sqoop对分析结果导入mysql数据库;
6.Flask+echarts搭建可视化大屏;
创新点:Python全新DrissionPage+Selenium双爬虫使用、海量数据、爬虫、可视化大屏、离线hive+实时Spark双实现


1.png 2.png 3.png 4.png 5.png 13.png 14.png 15.png 17.png 21.png 22.png 23.png 26.png 27.png 29.png 30.png 31.png 32.png 33.png 34.png 35.png 36.png 37.png 38.png 39.png 40.png
上一篇 下一篇

猜你喜欢

热点阅读