spark 入门

2022-08-08  本文已影响0人  乘以零

国内镜像
https://mirrors.tuna.tsinghua.edu.cn/apache/spark/spark-3.2.1/

启动方式
举例:将spark3.x的tar包上传linux,解压进入bin目录

1 运行spark-shell(本地模式),进行简单的wc
sc.textFile("/disk3/spark-3.0.0-bin-hadoop3.2/data/word.txt").flatMap(_.split(" ")).map((_,1)).reduceByKey(_+_).collect

2 用spark-submit方式
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master local[2] \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

3 用standlone方式
bin/spark-submit \
--class org.apache.spark.examples.SparkPi \
--master spark://localhost:7077 \
./examples/jars/spark-examples_2.12-3.0.0.jar \
10

spark-submit相关参数    解释  举例
–class  程序入口,包含主函数的类    
–master 运行的环境   local[*]、spark://localhost:7077、Yarn
–executor-memory 2G 每个executor可用内存为2G   
–total-executor-cores 2 所有executor可用cpu核数为2个    
application-jar jar包(带位置),hdfs(hdfs:// )、本地文件(file:// ) 
application-arguments   需要传入的参数 

上一篇下一篇

猜你喜欢

热点阅读