spark-submit提交任务的相关参数

2018-12-28  本文已影响16人  liuzx32

##参数名称        ##含义

--cluster  c3prc-hadoop #

--master  MASTER_URL #可以是spark://host:port,mesos://host:port,yarn,yarn-cluster,yarn-client,local,local[K],local[*]

--deploy-mode DEPLOY_MODE #Driver程序运行的地方,client或者cluster

--class CLASS_NAME #主类名称,含包名

--name NAME #Application名称

--jars JARS #Driver依赖的第三方jar包

--py-files PY_FILES #用逗号隔开的放置在Python应用程序PYTHONPATH上的.zip,.egg,.py文件列表

--files FILES #用逗号隔开的要放置在每个executor工作目录的文件列表

--properties-file  FILE #设置应用程序属性的文件路径,默认是conf/spark-defaults.conf

--driver-memory MEM #Driver程序使用内存大小

#

--driver-java-options

--driver-library-path Driver程序的库路径

--driver-class-path Driver程序的类路径

--executor-memory MEM #executor内存大小,默认1G

#

--driver-cores NUM #Driver程序的使用CPU个数,仅限于Spark standalone模式

--supervise #失败后是否重启Driver,仅限于Spark standalone模式

--total-executor-cores NUM #Executor使用的总核数,仅限于Spark standlone、Spark on Mesos模式

#

--executor-cores NUM #每个executor使用的内核数,默认为1,仅限于Spark on Yarn模式

--queue QUEUE_NAME #提交应用程序给哪个YARN的队列,默认是default队列,仅限于Spark on Yarn模式

--num-executors NUM #启动的executor数量,默认是2个,仅限于Spark on Yarn模式

--archives ARCHIVES #仅限于Spark on Yarn模式

#

输入spark-submit  -h就能得到上面的列表

#

通过conf制定sparkconfig配置

--conf spark.jmx.enable=true

--conf spark.file.transferTo=false

--conf spark.yarn.executor.memoryOverhead=2048

--conf spark.yarn.driver.memoryOverhead=2048

#

--conf spark.memory.fraction=0.35

--conf spark.serializer=org.apache.spark.serializer.KryoSerializer

--conf spark.akka.frameSize=512

--conf spark.yarn.jar=hdfs://c3prc-hadoop/tmp/spark-assembly-1.6.1-mdh1.6.1.5-hadoop2.6.0-mdh3.4.2.jar

#

#PS

通过传递参数numPartitions指导Spark程序的repartitions操作

#

上一篇下一篇

猜你喜欢

热点阅读