2019-03-19

2019-03-19 本文已影响0人福莱得

昨天花了很长时间摆弄大数据环境。由于上周五上线财务模块的时候，重新创建了数据库的用户，已经用户权限，导致大数据任务都停止了。周一来了以后赶紧恢复大数据任务。然后就是跟线上大数据环境斗争了。加了一个spark节点，但是无法把这个节点加到spark里去。如果动态添加不行，只能考虑把大数据环境停下来添加。目前大数据环境问题比较大，一个是直播数据量稍大时，直播的数据处理就非常慢，另外就是直播流量统计不准确。现在多了一个问题，会议的历史数据收集上出了问题。目前首要任务是恢复会议统计信息。在考虑直播问题。

目前不清楚的地方：spark如何与hadoop配合工作？

spark任务如何提交到hadoop上？

spark任务如何在节点上分配？

为何spark任务总是分配在node2上？

如何可以加快spark任务的执行？

2019-03-19

猜你喜欢

热点阅读