2019-03-19
2019-03-19 本文已影响0人
福莱得
昨天花了很长时间摆弄大数据环境。由于上周五上线财务模块的时候,重新创建了数据库的用户,已经用户权限,导致大数据任务都停止了。周一来了以后赶紧恢复大数据任务。然后就是跟线上大数据环境斗争了。加了一个spark节点,但是无法把这个节点加到spark里去。如果动态添加不行,只能考虑把大数据环境停下来添加。目前大数据环境问题比较大,一个是直播数据量稍大时,直播的数据处理就非常慢,另外就是直播流量统计不准确。现在多了一个问题,会议的历史数据收集上出了问题。目前首要任务是恢复会议统计信息。在考虑直播问题。
目前不清楚的地方:spark如何与hadoop配合工作?
spark任务如何提交到hadoop上?
spark任务如何在节点上分配?
为何spark任务总是分配在node2上?
如何可以加快spark任务的执行?