StructuredStreaming的CheckPoint里面

2019-07-30  本文已影响0人  0o青团o0

问题-Delta文件是状态文件不能简单合并,否则可能导致状态无法恢复。状态文件多,主要是流和流join导致。
根本原因-Spark的CheckPoint里面的状态是初始执行时生成的shuffle数的目录数,继而再根据流流join每个生成4个目录。而后减少shuffle无法减少目录数。
解决方案-清除旧状态,减少shuffle数便能减少文件数。

上一篇 下一篇

猜你喜欢

热点阅读