Spark Sreaming实战(六)-实时流处理
2019-05-27 本文已影响14人
JavaEdge
1 概述
1.1 官网文档地址
Spark Streaming是core Spark API的扩展,可实现实时数据流的可扩展,高吞吐量,容错流处理。 数据可以从许多来源(如Kafka,Flume,Kinesis或TCP套接字)中获取,并且可以使用以高级函数(如map,reduce,join和window)表示的复杂算法进行处理。 最后,处理后的数据可以推送到文件系统,数据库和实时仪表板。 实际上,您可以在数据流上应用Spark的机器学习和图形处理算法。
在内部,它的工作原理如下。 Spark Streaming接收实时输入数据流并将数据分成批处理,然后由Spark引擎处理以批量生成最终结果流。
Spark Streaming提供称为离散流或DStream的高级抽象,表示连续的数据流。 DStream可以来自Kafka,Flume和Kinesis等源的输入数据流创建,也可以通过在其他DStream上应用高级操作来创建。 在内部,DStream表示为一系列RDD。