使用 SBT 构建 Spark Application
在 Spark 分布式计算框架之环境搭建 这篇文章中,我们已经成功的搭建起了 Spark
的运行环境,并且在 spark-shell
中做了一些小尝试,计算了一个文本文件中每一行的平均长度。但是,这怎么能满足你呢。你才不要在命令行敲来敲去,你要用华丽丽的 IDE,开发出可以在任何环境下运行的 app
,这才是你想要的。好,现在就来满足你。
安装 SBT
SBT 之于 Scala 就像 Maven 之于 Java,用于管理项目依赖,构建项目
下载
点击这里下载 SBT
本文下载的是 sbt-0.13.13.tgz
$ wget https://dl.bintray.com/sbt/native-packages/sbt/0.13.13/sbt-0.13.13.tgz
解压
将刚才下载的文件移动到 /opt/scala
目录中
$ sudo mv sbt-0.13.13.tgz /opt/scala
进入 /opt/scala
目录
$ cd /opt/scala
解压
$ sudo tar zxvf sbt-0.13.13.tgz
配置
打开配置文件 .bashrc
$ sudo vim ~/.bashrc
在文件末尾添加如下代码:
############# SBT_CONFIG #############
export SBT_HOME="/opt/scala/sbt-launcher-packaging-0.13.13"
export PATH="$SBT_HOME/bin:$PATH"
验证
在终端输入如下命令:
$ sbt -h
如果看到这样的输出则证明安装成功:
Usage: [options]
-h | -help print this message
-v | -verbose this runner is chattier
-d | -debug set sbt log level to debug
-no-colors disable ANSI color codes
...
恩。安装好了,我要开始愉快的码代码了。_
少年,你还是太天真了。因为大家都懂得的原因,SBT 下载依赖的速度极慢。所以,在正式使用之前我们要给 SBT 动个小手术 --- 换源。啊,多么痛的领悟。在此,先感谢一下我们的阿里妈妈。
换源方式很简单,在家目录下的 .sbt
目录下新建 repositories
文件,内容如下:
[repositories]
#local
public: http://maven.aliyun.com/nexus/content/groups/public/
typesafe:http://dl.bintray.com/typesafe/ivy-releases/ , [organization]/[module]/(scala_[scalaVersion]/)(sbt_[sbtVersion]/)[revision]/[type]s/[artifact](-[classifier]).[ext], bootOnly
ivy-sbt-plugin:http://dl.bintray.com/sbt/sbt-plugin-releases/, [organization]/[module]/(scala_[scalaVersion]/)(sbt_[sbtVersion]/)[revision]/[type]s/[artifact](-[classifier]).[ext]
sonatype-oss-releases
sonatype-oss-snapshots
如果家目录下没有 .sbt
目录,请手动创建
写一个独立的 Spark App
先贴目录结构
$ find .
.
./simple.sbt
./src
./src/main
./src/main/scala
./src/main/scala/SimpleApp.scala
新建一个目录,作为项目根目录,目录结构如上
SimpleApp.scala
中的内容如下:
/* SimpleApp.scala */
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
object SimpleApp {
def main(args: Array[String]) {
val logFile = "YOUR_SPARK_HOME/README.md"
val conf = new SparkConf().setAppName("Simple Application")
val sc = new SparkContext(conf)
val logData = sc.textFile(logFile, 2).cache()
val numAs = logData.filter(line => line.contains("a")).count()
val numBs = logData.filter(line => line.contains("b")).count()
println(s"Lines with a: $numAs, Lines with b: $numBs")
sc.stop()
}
}
这个程序用于统计 README.md
文件中字符 a
和 b
出现的次数
注意:请将 YOUR_SPARK_HOME
替换为你的 Spark
安装目录路径
simple.sbt
是项目的配置文件,内容如下:
name := "Simple Project"
version := "1.0"
scalaVersion := "2.11.7"
libraryDependencies += "org.apache.spark" %% "spark-core" % "2.1.0"
注意空行
现在我们使用 sbt
将我们的项目打包
在项目根目录下输入如下命令:
$ sbt package
耐心等待打包完毕
最终你会看到如下输出信息:
...
[info] Packaging {..}/{..}/target/scala-2.11/simple-project_2.11-1.0.jar
使用 spark-submit
运行刚才编写的程序
$ ~/apps/spark-2.1.0-bin-hadoop2.7/bin/spark-submit \
--class "SimpleApp" \
--master local[4] \
target/scala-2.11/simple-project_2.11-1.0.jar
...
Lines with a: 46, Lines with b: 23
输出信息比较多,要仔细观察哦。_