Spark Multi Tenancyspark

Spark Multi Tenancy系列 - 1 简述社区问题

2017-08-25  本文已影响362人  Kent_Yao

Multi Tenancy

多租户,从软件架构定义,即于多用户的环境共用相同的系统或程序组件,计算资源根据一定的策略进行隔离、竞争、共享,并且仍可确保各用户间数据的隔离性。

对于Spark On Yarn而言,我们已经拥有了Yarn这款优秀的的资源管理工具,怎样实现Multi Tenancy呢。

相关JIRA/PR

ISSUE 超链接 状态 简介
SPARK-2243 Support multiple SparkContexts in the same JVM Resolved/Won't Fix 如该JIRA的标题所讲,支持单JVM多sc的特性。对于Spark On Yarn,一个SparkContext实例对应于一个YarnSchedulerBackend,继而对应于一个Yarn的Application,在runtime的时候也只能提交到特定的某一个队列运行。用户无法在自己的一个程序中实例化多个SparkContext然后指定不同的queue来实现多租户的效果。详细讨论可通过连接前往。
SPARK-5159 Thrift server does not respect hive.server2.enable.doAs=true Unresolved/reopened 这是自然的。对于HiveServer2/Spark ThriftServer而言, 一个thrift的Req里面包含客户端的UserGroupInformation,无论走不走代理(proxying/Impersonation),doAs情况下,都会依赖于这个ugi去执行。前者没啥问题,一系列的进程都是通过这个ugi去拉起的,不会有冲突;后者不然,执行环境在Server启动的时候就已经由SparkSQLEnv给你实例化好了SparkContext,每次你openSession不过是得到一个sqlContext级别的东西了,执行环境ugi都是由linux user或者spark.yarn.principal指定的,在两个ugi不一致的情况下,doAs自然会有权限的问题。
SPARK-5159 [SPARK-5159][SQL] Make DAGScheduler event loop forwarding UGI info to processing thread closed/unmerged 这个PR挺有意思,应该是在Task执行期间将UGI信息deliver到executor端,但是这样的话,所有客户端用户用的其实都是同一个yarn队列,资源上不存在隔离。

总结

上一篇下一篇

猜你喜欢

热点阅读