1-Spark概述
1 大数据技术栈
image.png2 spark是什么
快如闪电般的分布式计算框架:Lightning-fast cluster
3 MapReduce框架局限性
image.png4 Hadoop生态圈中的各种框架
image.png5 Spark的优势
image.pngimage.png
6 SPARK 2新特性
image.png7 Windows开发环境
image.png8 下载anacoda(略)
9 下载安装hadoop2.7
hadoop-2.7.6下载地址:https://archive.apache.org/dist/hadoop/common/hadoop-2.7.6/
进入下载地址后,选择红框里的内容,则会开始自动下载了。
10 下载安装jdk1.8
jdk1.8下载地址:http://www.oracle.com/technetwork/java/javase/downloads/jdk8-downloads-2133151.html
选择Accept License Agreement,然后下载和自己电脑配置相同的版本,我的是windows64位的,如下图:
11 下载安装spark
spark-2.3.1-bin-hadoop2.7.tgz下载地址:http://spark.apache.org/downloads.html
选择版本,点击下载
12 安装py4j
进入cmd命令框,输入:pip install py4j,即开始下载
13 安装pyspark的扩展包
将D:\spark-2.3.1-bin-hadoop2.7\python(spark\python目录)粘贴到anacoda目录下D:\anaconda3\Lib\site-packages,新建pyspark.pth的文本里
14 配置环境变量
将hadoop2.7、spark、jdk这三个的安装目录添加到环境变量中,分别为
HADOOP_HOME:hadoop安装路径
image.png
SPARK_HOME:spark安装路径
image.png
JAVA_HOME:jdk安装路径
image.png
在Path路径中也要加上刚才添加的三个安装路径
image.png
15 启动pyspark
在cmd命令框中输入:pyspark,进入pyspark编辑界面
image.png
16 测试wordcount
1、在D盘新建一个测试文件:app.log(随便输入几个word,用空格分割)
2、运行下面命令
sc = spark.sparkContext
doc = sc.textFile('file:///d:/app.log')
words = doc.flatMap(lambda x:x.split(" ")).map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y).collect()”