Spark学习笔记一：基础知识

2019-12-21 本文已影响0人开发者连小超

什么是Spark

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark是UC Berkeley AMP lab (加州大学伯克利分校的AMP实验室)所开源的类Hadoop MapReduce的通用并行计算框架，Spark拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。
Spark是Scala编写，方便快速编程。

Spark与MapReduce的区别

Spark与MapReduce都是分布式计算框架，Spark基于内存，MR基于HDFS。Spark处理数据的能力一般是MR的十倍以上，Spark中除了基于内存计算外，还有DAG有向无环图来切分任务的执行先后顺序。

Spark运行模式

Local
多用于本地测试，如在eclipse，idea中写程序测试等。
Standalone
Standalone是Spark自带的一个资源调度框架，它支持完全分布式。
Yarn
Hadoop生态圈里面的一个资源调度框架，Spark也是可以基于Yarn来计算的。要基于Yarn来进行资源调度，必须实现AppalicationMaster接口，Spark实现了这个接口，所以可以基于Yarn。
Mesos
资源调度框架。

Spark生态系统

Spark生态系统.jpg

Spark Core

Spark的核心组件，其操作的数据对象是RDD（弹性分布式数据集），图中在Spark Core上面的四个组件都依赖于Spark Core，Spark Core提供了多种资源调度管理，通过内存计算、有向无环图（DAG）等机制保证分布式计算的快速，并引入了RDD 的抽象保证数据的高容错性。

Spark Streaming

Spark Streaming 是一个对实时数据流进行高吞吐、高容错的流式处理系统，可以对多种数据源（如Kafka、Flume、Twitter 和ZeroMQ 等）进行类似Map、Reduce 和Join 等复杂操作，并将结果保存到外部文件系统、数据库或应用到实时仪表盘，如下图。其操作的数据对象是DStream，其实Spark Streaming是将流式计算分解成一系列短小的批处理作业。这里的批处理引擎是Spark Core，也就是把Spark Streaming的输入数据按照batch size（批次间隔时长）（如1秒）分成一段一段的数据系列（DStream），每一段数据都转换成Spark Core中的RDD，然后将Spark Streaming中对DStream的转换计算操作变为针对Spark中对RDD的转换计算操作。

Spark Streaming.png

相比其他的处理引擎要么只专注于流处理，要么只负责批处理（仅提供需要外部实现的流处理API 接口），而Spark Streaming 最大的优势是提供的处理引擎和RDD 编程模型可以同时进行批处理与流处理。

Spark SQL

Spark SQL 的前身是Shark，它发布时Hive 可以说是SQL on Hadoop 的唯一选择（Hive 负责将SQL 编译成可扩展的MapReduce 作业），鉴于Hive 的性能以及与Spark 的兼容，Shark 由此而生。
可以简单认为可以让用户使用写SQL的方式进行数据计算，SQL会被SQL解释器转化成Spark Core任务，让懂SQL不懂spark的人都能通过写SQL的方式进行数据计算，类似于Hive在Hadoop生态圈中的作用，提供SparkSql CLI（命令行界面），可以再命令行界面编写SQL。

BlinkDB

BlinkDB 是一个用于在海量数据上运行交互式SQL 查询的大规模并行查询引擎，它允许用户通过权衡数据精度来提升查询响应时间，其数据的精度被控制在允许的误差范围内。

Spark Mlib

一个可扩展的Spark机器学习库，里面封装了很多通用的算法，包括二元分类、线性回归、聚类、协同过滤等。用于机器学习和统计等场景。

Spark Graphx

Spark生态系统中的图计算和并行图计算，目前较新版本已支持PageRank、数三角形、最大连通图和最短路径等6种经典的图算法。

SparkR

R 是遵循GNU 协议的一款开源、免费的软件，广泛应用于统计计算和统计制图，但是它只能单机运行。为了能够使用R 语言分析大规模分布式的数据，伯克利分校AMP 实验室开发了SparkR，并在Spark 1.4 版本中加入了该组件。通过SparkR 可以分析大规模的数据集，并通过R Shell 交互式地在SparkR 上运行作业。

Alluxio

Alluxio 是一个分布式内存文件系统，它是一个高容错的分布式文件系统，允许文件以内存的速度在集群框架中进行可靠的共享，就像Spark 和 MapReduce 那样。Alluxio 是架构在最底层的分布式文件存储和上层的各种计算框架之间的一种中间件。其主要职责是将那些不需要落地到DFS 里的文件，落地到分布式内存文件系统中，来达到共享内存，从而提高效率。同时可以减少内存冗余、GC 时间等。
和Hadoop 类似，Alluxio 的架构是传统的Master-Slave 架构，所有的Alluxio Worker 都被Alluxio Master 所管理，Alluxio Master 通过Alluxio Worker 定时发出的心跳来判断Worker 是否已经崩溃以及每个Worker 剩余的内存空间量，为了防止单点问题使用了ZooKeeper 做了HA。

参考文献：https://blog.csdn.net/broadview2006/article/details/80127731