关于RDD缓存命令需要导入的包
2017-06-18 本文已影响0人
485b1aca799e
- spark操作时候,如果一个数据集需要反复的运算,则考虑将其导入进内存中,使得能够快速的运行。
//在使用缓存命令之前,需要导入一个包
import org.apache.spark.storage.StorageLevel
val x =sc.parallelize(List(1,2,3,4))
x.persist(StorageLevel.MEMORY_AND_DISK)
//默认缓存等级为:MEMORY_ONLY
//将缓存数据集从内存中释放
x.unpersist()