在mac上搭建spark＋ipython环境

2017-02-08 本文已影响0人 Mikasa佳妮妮

Big Data computing 下课之后回去试着搭建了一下spark环境，在这里记录安装过程中遇到的坑及解决方法和一些待解决的问题。

mac上的python环境：Anaconda for python 2.7。(原来我用的Anaconda for python3.6,但是在用pyspark的过程中会遇到一个不能解决的bug，所以又重新装了python2.7）

下面是我的配置过程，黑色加粗字体是要在terminal中敲的命令

1. 在spark官网上下载spark文件包

2. 打开terminal

3. 打开下载的spark所在的路径

cd downloads

4. 解压压缩包

tar -zxvf spark-2.1.0-bin-hadoop2.7.tar

5. 把解压后的文件移动到home路径下

mv spark-2.1.0-bin-hadoop2.7/~/spark-2.1.0

6. 设置环境变量

nano .bash_profile

o 在bash profile 里添加下面两句

export SPARK_PATH=~/spark-2.1.0

export PATH=$SPARK_PATH/bin:$PATH

保存并推出 (command+x)

7. 环境变量会在你下次打开terminal时自动生效，如果想立刻生效，用下面的source命令

source .bash_profile

8.键入pyspark看看是不是成功

pyspark

## 以上这些步骤如果是python3.6环境中会报TypeError: namedtuple() missing 3 required keyword-only arguments: 'verbose', 'rename', and 'module'

## 有人在github上提出了这个问题，不过我没有看懂是如何解决的。github上关于pyspark＋python3.6

9. 如果想在ipython notebook中使用pyspark，在第六步中bash_profile文件中追加下面三行：

export PYSPARK_DRIVER_PYTHON="ipython"

export PYSPARK_DRIVER_PYTHON_OPTS="notebook"

alias snotebook='$SPARK_PATH/bin/pyspark --masterlocal[2]'

10. source .bash_profile

11. 在terminal中键入pyspark或者snotebook。snotebook 是别名，可以在第九步设置环境变量的过程中任意命名。Local[2] 表示我们为它分配了两个核。

12.打开了ipython notebook之后可以尝试下面命令看看spark配置是否成功

sc.parallelize(range(100),8).take(5)