Spark入门指南！超完整学习资源！

2018-05-24 本文已影响175人蓝桥云课

1. Spark 概念

Spark是UC Berkeley AMP lab开发的一个集群计算的框架，类似于Hadoop，但有很多的区别（详细见3.4）。最大的优化是让计算任务的中间结果可以存储在内存中，不需要每次都写入HDFS，更适用于需要迭代的MapReduce算法场景中，可以获得更好的性能提升。例如一次排序测试中，对100TB数据进行排序，Spark比Hadoop快三倍，并且只需要十分之一的机器。Spark集群目前最大的可以达到8000节点，处理的数据达到PB级别，在互联网企业中应用非常广泛。

2. Spark大数据处理框架

相较于国内外较多的大数据处理框架，Spark以其低延时的出色表现，正在成为继Hadoop的MapReduce之后，新的、最具影响的大数据框架之一。以Spark为核心的整个生态圈，最底层为分布式存储系统HDFS、Amazon S3、Mesos，或者其他格式的存储系统（如HBase）；资源管理采用Mesos、YARN等集群资源管理模式，或者Spark自带的独立运行模式，以及本地运行模式。在Spark大数据处理框架中，Spark为上层多种应用提供服务。例如，Spark SQL提供SQL查询服务，性能比Hive快3～50倍；MLlib提供机器学习服务；GraphX提供图计算服务；Spark Streaming将流式计算分解成一系列短小的批处理计算，并且提供高可靠和吞吐量服务。值得说明的是，无论是Spark SQL、Spark Streaming、GraphX还是MLlib，都可以使用Spark核心API处理问题，它们的方法几乎是通用的，处理的数据也可以共享，不仅减少了学习成本，而且其数据无缝集成大大提高了灵活性。

后续我们会就几个主要应用，包括SQL,Streaming,机器学习，DataFrame, SparkR, GraphX进行详细教程讲解。基本掌握以上几部分的使用，就能体会到使用Spark的便利。

3. Spark的安装

3.1 安装前准备

安装Spark之前需要先安装Java，Scala及Python。

安装Java

实验楼环境中已经安装了JDK，这里打开桌面上的Xfce终端，执行查看Java版本：

image

可以看到实验楼的Java版本是1.8.0_60，满足Spark 1.5.1对Java版本的要求。

如果需要自己安装可以在Oracle的官网下载Java SE JDK，下载链接：http://www.oracle.com/technetwork/java/javase/downloads/index.html。

安装Scala

老版本的Spark安装前需要先装Scala，1.5.1版本可以无需这一步骤。但为了自己开发Scala程序调试的方便我们仍然安装一个最新版本2.11.7的Scala。

Scala官网下载地址：http://www.scala-lang.org/download/

image

由于官网速度很慢，我们预先上传到了实验楼内网，下载并解压到/opt/目录：

wget http://labfile.oss.aliyuncs.com/courses/456/scala-2.11.7.tgz
tar zxvf scala-2.11.7.tgz
sudo mv scala-2.11.7 /opt/

测试scala命令，并查看版本：

image

安装Python及IPython

安装执行命令：

sudo apt-get update
sudo apt-get install python ipython

实验楼中已经安装了Python及IPython，分别查看版本：

image

3.2 Spark下载

课程中使用目前最新稳定版：Spark 1.5.1，官网上下载已经预编译好的Spark binary，直接解压即可。

Spark官方下载链接：http://spark.apache.org/downloads.html

下载页面中我们如下图选择Pre-build for Hadoop 2.6 and later并点击下载：

image

为了节约时间，我们选择从阿里云的镜像下载：

wget http://mirrors.aliyuncs.com/apache/spark/spark-1.5.1/spark-1.5.1-bin-hadoop2.6.tgz

大约268M大小，下载完成后解压并拷贝到/opt/目录：

tar zxvf spark-1.5.1-bin-hadoop2.6.tgz
sudo mv spark-1.5.1-bin-hadoop2.6 /opt/

进入到spark目录查看目录结构，本节实验中会用到bin/目录下的操作命令以及conf/目录下的配置文件。

3.3 配置路径与日志级别

为了避免每次都输入/opt/spark-1.5.1-bin-hadoop2.6这一串前缀，我们将必要的路径放到PATH环境变量中（实验楼用的是zsh，所以配置文件为~/.zshrc）：

# 添加配置到zshrc
echo "export PATH=$PATH:/opt/spark-1.5.1-bin-hadoop2.6/bin" >> ~/.zshrc

# 使zshrc起作用
source ~/.zshrc

# 测试下spark-shell的位置是否可以找到
which spark-shell

我们进入到spark的配置目录/opt/spark-1.5.1-bin-hadoop2.6/conf进行配置：

# 进入配置目录
cd /opt/spark-1.5.1-bin-hadoop2.6/conf

# 基于模板创建日志配置文件
cp log4j.properties.template log4j.properties

# 使用vim或gedit编辑文件log4j.properties
# 修改log4j.rootCategory为WARN, console，可避免测试中输出太多信息
log4j.rootCategory=WARN, console

# 基于模板创建配置文件
sudo cp spark-env.sh.template spark-env.sh

# 使用vim或gedit编辑文件spark-env.sh
# 添加以下内容设置spark的环境变量
export SPARK_HOME=/opt/spark-1.5.1-bin-hadoop2.6
export SCALA_HOME=/opt/scala-2.11.7

spark-env.sh配置如图：