大数据大数据学习之路大数据,机器学习,人工智能

在求取用户推荐电影的时候内存溢出问题的解决

2019-02-20  本文已影响1人  大数据修行
 val movieRDD = spark
      .read
      .option("uri",mongoConfig.uri)
      .option("collection",MOVIES_COLLECTION_NAME)
      .format("com.mongodb.spark.sql")
      .load()
      .as[Movie]
      .rdd
      .map(_.mid).cache()


    val ratingRDD = spark
      .read
      .option("uri",mongoConfig.uri)
      .option("collection",RATINGS_COLLECTION_NAME)
      .format("com.mongodb.spark.sql")
      .load()
      .as[MovieRating]
      .rdd
      .map(rating=> (rating.uid, rating.mid, rating.score)).cache()

这个地方加一个cache()方法,这里反复拉取的时候太消耗内存

上一篇 下一篇

猜你喜欢

热点阅读