Dataflow Model笔记

2018-11-04  本文已影响0人  chaokunyang

Dataflow Model笔记原文链接http://timeyang.com/articles/27/2018/10/26/The%20Dataflow%20Model

The Dataflow Model: A Practical Approach to Balancing Correctness, Latency, and Cost in MassiveScale, Unbounded, OutofOrder Data Processing

最近看了Google发表的dataflow论文,其中两点颇有感触:

  1. dataflow提供了一个思考维度:从什么结果被计算、在事件时间的哪里计算、处理时间的什么时候观察到结果、以及早先的结果如何与之后的修正相关。这种思维方式的转变是很重要的。
  2. dataflow分析了lambda架构的思想,即实时计算结果不准确但是低延迟,然后在批处理中修正结果,达到最终正确性。它对其推广,在流处理中使用触发器低延时产生结果,这个结果不一定准确,然后在后续计算中,利用晚到的数据产生新的结果来修正之前的结果,从而实现低延迟和正确性,而不是依赖等待数据完整来实现正确性(这会造成延时)

下面是它的主要内容:

A single unified model

Concrete contribution

Dataflow Model

Core Primitives

Windowing

Triggers & Incremental Processing

Design Principles

上一篇 下一篇

猜你喜欢

热点阅读