我爱编程

Python  Spark的安装以及遇到的一些问题的解决

2018-03-25  本文已影响0人  一个三要不起
首先要安装Scala

先下载scala-2.11.8.tgz ,安装的方法就比较老套路了:
先是解压tar -zxvf scala-2.11.8.tgz
然后移动sudo mv -r scala-2.11.8/ /usr/
改名sudo mv /usr/scala-2.11.8 /usr/scala
配置环境变量sudo vim /etc/profile加入以下内容:

export SCALA_HOME=/usr/scala

export PATH=$PATH:$SCALA_HOME/bin

让配置生效source /etc/profile
终端输入scala就可以进入scala了

安装Spark

用同样的套路安装Spark

先是解压tar -zxvf spark-2.2.0-bin-hadoop2.7.tgz
然后移动sudo mv -r spark-2.2.0-bin-hadoop2.7/ /usr/
改名sudo mv /usr/spark-2.2.0-bin-hadoop2.7 /usr/spark
配置环境变量sudo vim /etc/profile加入以下内容:

export SPARK_HOME=/usr/spark

export PATH=$PATH:$SPARK_HOME/bin

让配置生效source /etc/profile

这里需要修改spark/conf/下的spark-env.sh.template文件

先重命名mv conf/spark-env.sh.template conf /spark-env.sh
修改vim /usr/spark/conf /spark-env.sh

加入以下内容:

export JAVA_HOME=/usr/java/jdk

export SCALA_HOME=/usr/scala

export HADOOP_HOME=/usr/hadoop

export HADOOP_CONF_DIR=/usr/hadoop/etc/hadoop

export SPARK_MASTER_IP=master

export SPARK_WORKER_MEMORY=4g

export SPARK_WORKER_CORES=2

export SPARK_WORKER_INSTANCES=1

变量说明

修改slaves文件
vim /usr/spark/conf/slaves
加入从机的IP地址,也可以是从机名。

然后就可以启动Spark了:
先启动HDFSstart-dfs.sh
然后启动Spark,从Spark的目录下启动Spark,
cd /usr/spark/sbin/
./start-all.sh
主机和其他从机输入jps有如下显示说明启动成功了:

那么问题来了,我学过Python但没学过scala怎么使用Spark?我们知道Spark是支持Python语言的,在spark/bin/下也可以看到有pyspark,我试着运行一下


运行失败,没找到python命令,好吧,那么我就安装Python:
先去Python官网下载Python的二进制源码,下好了先解压
tar -zxvf Python-3.6.5rc1.tgz
然后我按照老套路安装
./Python-3.6.5rc1/configure --prefix=/usr/python
(/usr/python是指要把安装python的目的地址)

然后就。。。暴露了。。。居然没有安装C编译器,作为计算机专业的我感觉很丢脸,好吧,继续安装GCC。作为Linux小白的我人为缺什么就安装什么,所以我输入了如下命令
sudo apt-get install gcc

可以看到由于网速体验极差,所以我放弃安装GCC了。。。然后从网上下载了GCC源码来编译也是各种问题,最后抱着试一试的心理来执行这么一段命令
sudo apt-get install g++
然而网速还是很慢,这时候突然灵机一动,想到这样一个命令
sudo apt-get update
然后再执行sudo apt-get install g++命令,果然安装成功了

好了,现在可以继续安装Python了
./Python-3.6.5rc1/configure --prefix=/usr/python
make
make install

然后一路顺通无阻安装成功!!!
输入命令python3可以进入python shell,顺便求了一下1+1等于多少

然后美滋滋的执行pyspark命令,然后还是有问题。。。

有问题还是找百度,经过十几分钟的苦苦在寻找终于找到解决办法:
编辑/etc/profile
在里边添加export PYSPARK_PYTHON=python3
使配置生效source /etc/profile
再启动pyspark就没问题了

希望这些能帮助到您

参考:
https://blog.csdn.net/weixin_36394852/article/details/76030317
https://www.cnblogs.com/kimyeee/p/7250560.html
https://github.com/pyenv/pyenv/wiki/Common-build-problems
https://stackoverflow.com/questions/30279783/apache-spark-how-to-use-pyspark-with-python-3

上一篇下一篇

猜你喜欢

热点阅读