武汉数道云，Spark Streaming实时流式数据处理，典型

2019-05-21 本文已影响0人数道云

1. Spark Streaming

Spark Streaming核对实时流式数据的处理具有可扩展性、高吞吐量、可容错性。我们可以从kafka、flume、Twitter、 ZeroMQ、Kinesis等源获取数据，也可以通过高阶函数map、reduce、join、window等组成的复杂算法计算出数据。最后，处理后的数据可以推送到文件系统、数据库、实时仪表盘中。事实上，你可以将处理后的数据应用到Spark的机器学习算法、图处理算法中去。

Spark Streaming实时流式数据处理

Spark Streaming接收实时的输入数据流，然后将这些数据切分为批数据供Spark引擎处理，Spark引擎将数据生成最终的结果数据。

Hadoop大数据

Spark是UC Berkeley AMP lab所开源的类HadoopMapReduce的通用并行计算框架，Spark基于map reduce算法实现分布式计算，拥有MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果是保存在内存中，从而不再需要读写HDFS。因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Spark重要性：

（1）Spark提供的框架能够实现高级分析，如：查询加速、机器学习算法、图形处理、流分析等等。

（2）Spark实现快速、精准的数据分析方式。

（3）Spark提供了不同层面的灵活性。

（4）Spark借Hadoop之势，与Hadoop无缝结合；接着Shark（Spark上的数据仓库实现）借了Hive的势。

2.Streaming流计算框架

流是现在推特、微博、微信、图片服务以及物联网、位置服务等等的重要数据形态，因此流计算正显得前所未有的重要。流计算框架是所有互联网服务商的核心基础架构，Amazon、Microsoft都已经推出了Event消息总线云服务平台，而facebook\twitter等更是将自己的流计算框架开源。

Spark Streaming专门设计用于处理流式数据。通过Spark Streaming，可以快速地将数据分析处理环节，具有高的吞吐量、更快速的失败恢复。

波若大数据计算服务平台（BR-ODP）支持的数据批处理引擎MapReduce、Tez和Spark，而对于实时的流式计算框架支持storm和spark streaming。大数据的成熟的资源管理框架支持YARN和MESOS，可以通过YARN进行资源管理的组件或者计算框架（Hive、Sqoop、Spark），BR-ODP以YARN为中心设计，提供业界最好的YARN支持以及YARN和整个Hadoop生态系统的结合。

原文链接：http://www.sdydata.com/gsxw/info_itemid_125.html

武汉数道云，Spark Streaming实时流式数据处理，典型

猜你喜欢

热点阅读