# 数据分析最佳实践 - 数据梳理、处理、提交集群

2018-07-10  本文已影响0人  Sevsea

之前从数据库中取出数据,都是dataset/dataframe进行处理的,与之相较rdd操作起来更加丝滑顺手,思路也更加清晰了。

0x01数据梳理&处理方式:

0x02提交集群

网上太多集群提交的方法,由数据打包提交到集群遇到的问题说,过程中共遇到三个问题:

spark-submit时 --jars /path/to/jar/xxx.jar可以直接将本地的jar包带入集群中提交。

如果是提交到公有集群的jar包,不再设置setmaster("local"),而是采用命令行中设置yarn-client的方式:
--master YARN-client

方案1:将本地文件上传到hdfs读取,但是遇到第三方包无法直接对hdfs读取的文件进行操作的状况;

方案2:把本地文件同步到集群每台机器,如若是公司集群,此方案不可行;

方案3:(最佳方案)
在spark提交任务前文件读取到driver内存,即
在创建SparkContext或SparkSession之前,先读取文件到driver内存。

故最终方法为:

spark-submit --jars /path/to/jars/xxx.jar --class com.App.loliCount /path/to/jar/your-spark-subject.jar --master YARN-client 

//注意有时--jars需要在第一个参数时才能提交时不报错。

Done.

#######spark就像一本好书,每次使用都有更深一次的理解。########

上一篇 下一篇

猜你喜欢

热点阅读