【Spark】Spark日志过大导致磁盘溢出问题解决方案

2017-10-13  本文已影响598人  PowerMe

一 问题背景

平台近期出现多次spark任务日志文件将磁盘打满,导致平台异常报警和任务失败的情况,这些任务包括Spark-Streaming任务和普通Spark任务。产生该问题的原因主要是:

Spark-Streaming任务运行时间比较长,Executor和Driver进程产生的Spark系统日志数量很大;业务用户在应用代码中使用System.out.print等输出了大量的调试信息(曾有任务运行40分钟打满100G日志文件)。以上信息全部输出在Yarn Container日志路径下的stdoutstderr里面,而Yarn本身没有对这些文件大小做限制,导致文件无限增长,最终将磁盘打满。

二 解决方案

2.1 解决思路

针对该问题,Spark官网给出了解决方案:

在此基础上,结合实际情况,制定以下方案:

2.2 实施方案
上一篇下一篇

猜你喜欢

热点阅读