04-flink和sparkStreaming比较

2021-06-09  本文已影响0人  yayooo

一、流(stream)和微批(micro-batching)


微批模式

思想:只要批次足够小,则实时性更好,需要攒批数据然后进行处理。

流模式

思想:所有的数据都是流。

二、数据模型不同

三、运行时架构不同

在分布式spark中,假设某个节点因为数据倾斜或者其他问题而导致某个stage处理时间过长,而其他的节点也就需要等待该节点处理完成才能够进行合并计算。
在分布式flink中,所有节点的某数据,处理完成后,保存state,就可发送到下游,后续来的数据可以根据state去做合并计算。则不需要等待。

上一篇 下一篇

猜你喜欢

热点阅读