1-Spark概述

2018-07-06 本文已影响0人 Achaichai

1 大数据技术栈

image.png

2 spark是什么

快如闪电般的分布式计算框架：Lightning-fast cluster

3 MapReduce框架局限性

image.png

4 Hadoop生态圈中的各种框架

image.png

5 Spark的优势

image.png

6 SPARK 2新特性

image.png

7 Windows开发环境

image.png

8 下载anacoda(略）

9 下载安装hadoop2.7

hadoop-2.7.6下载地址：https://archive.apache.org/dist/hadoop/common/hadoop-2.7.6/
进入下载地址后，选择红框里的内容，则会开始自动下载了。

image.png

10 下载安装jdk1.8

jdk1.8下载地址：http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
选择Accept License Agreement，然后下载和自己电脑配置相同的版本，我的是windows64位的，如下图：

image.png

11 下载安装spark

spark-2.3.1-bin-hadoop2.7.tgz下载地址：http://spark.apache.org/downloads.html
选择版本，点击下载

image.png

12 安装py4j

进入cmd命令框，输入：pip install py4j，即开始下载

13 安装pyspark的扩展包

将D:\spark-2.3.1-bin-hadoop2.7\python(spark\python目录）粘贴到anacoda目录下D:\anaconda3\Lib\site-packages，新建pyspark.pth的文本里

14 配置环境变量

将hadoop2.7、spark、jdk这三个的安装目录添加到环境变量中，分别为
HADOOP_HOME:hadoop安装路径

image.png

SPARK_HOME:spark安装路径

image.png
JAVA_HOME:jdk安装路径

image.png
在Path路径中也要加上刚才添加的三个安装路径

image.png

15 启动pyspark

在cmd命令框中输入：pyspark，进入pyspark编辑界面

image.png

16 测试wordcount

1、在D盘新建一个测试文件：app.log(随便输入几个word,用空格分割)
2、运行下面命令

sc = spark.sparkContext
doc = sc.textFile('file:///d:/app.log')
words = doc.flatMap(lambda x:x.split(" ")).map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y).collect()”

1-Spark概述

1 大数据技术栈

2 spark是什么

3 MapReduce框架局限性

4 Hadoop生态圈中的各种框架

5 Spark的优势

6 SPARK 2新特性

7 Windows开发环境

8 下载anacoda(略）

9 下载安装hadoop2.7

10 下载安装jdk1.8

11 下载安装spark

12 安装py4j

13 安装pyspark的扩展包

14 配置环境变量

15 启动pyspark

16 测试wordcount

猜你喜欢

热点阅读