ImportError: No module named bso

2018-10-25  本文已影响49人  slowrabbit

背景

在基于hadoop 集群的spark2环境中,使用python编写任务。groupByKeys后,对value进行处理的时候,处理函数fun需要一个参数。传入后,使用spark2-submit提交后,出现如题的错误。
input:

    rdd = ...\
          .groupByKey(...)\
          .mapValues(lambda grouped: func(grouped, rule_dict)\
          ...

处理

filterVar = sc.broadcast(filter_option)
rdd.map(lambda x: func(x, filterVar.value)

但仍然报错(其实这是一种共享参数,减少每次传参到集群计算)

总结

暂时使用string来规避这个问题,个人认为由于任务在集群执行,集群的python环境可能对bson缺乏支持。

上一篇 下一篇

猜你喜欢

热点阅读