Spark常见问题诊断
2017-07-20 本文已影响0人
db2af469212f
经常会遇到如下异常, 某一个task多次失败导致作业失败. 这种情况下因为容器退出, 无法查看日志, 已经很难判断具体的失败原因.
可以参考如下步骤进行简单诊断问题,
1. 点击如下失败的stage链接,
2. 进入如下task列表, 可以看到Index 396就是上面异常中的Task 396, 而对应的四次失败Attempt 的TID分别是 1165, 1318.
注意:这几次失败尝试发生的Host完全相同, 表示作业在同一台机器上反复执行这个task 4次并均告失败, 最终导致作业失败. 这种情况就极有可能是当时这台机器的状态不正常或负载偏高导致的