提交Spark任务至YARN运行的3种方式

2019-10-27  本文已影响0人  香山上的麻雀

Spark作为新一代计算平台的闪亮明星,在我们的大数据平台中具有非常重要的作用,SQL查询、流计算和机器学习等场景都能见到它的身影,可以说平台应用的数据处理、计算和挖掘等场景都可以使用Spark进行开发。在默认的情况下,如果想向Spark提交计算任务,通常会使用Spark提供的Spark-Submit脚本来提交含有业务逻辑的jar文件程序。这种方式虽然简单,但有悖于服务化的设计理念,所以需要为Spark提供一套任务管理的RESTful服务。
在大数据平台中,Spark是以Spark on YARN的方式运行的,在这种模式下,整个集群的资源调度是由YARN统一控制的,Spark只是作为运行在YARN上的一个应用客户端而存在。本文将介绍提交Spark任务至YARN运行的3种方式。如下图所示:


上一篇 下一篇

猜你喜欢

热点阅读