数据科学家Hadoop系玩转大数据

Spark Streaming 调优指南

2017-08-19  本文已影响170人  和心数据

Spark Streaming是架构在Spark Core上的一个“应用”,SparkStreaming主要由DStreamGraph、Job的生成、数据的接收和导入以及容错四大模块组成,我们今天就从这四大模块入手,看看每个模块都有什么样的调优方式

SparkStraming调优体系

1 DStreamGraph

其实这部分主要是算子的使用优化,这个跟Spark调优的内容是相同,在这一部分可以优化的内容有

2 Job的生成

这一部分主要涉及到的调优是batchInternal的调整,为了程序不延迟地执行,合理的batchInternal是必要的

3 数据的接收和导入

这一部分主要是针对数据的接受速度进行调优,如果接收速度大于处理数据,那么程序会走向无限延迟最后崩溃的道路,所以主要的调优在于限速

4 容错

主要是数据的容错方式选择

上一篇 下一篇

猜你喜欢

热点阅读