《Spark大数据处理》读书笔记——RDD(Resilient

2021-12-12  本文已影响0人  抬头挺胸才算活着
val file = sc.testFile("hdfs://xxx")
val errors = file.filter(line =>line.contains("ERROR"))
errors.count()

下图的上下部分分别从RDD的角度和存储的角度描述了转化的过程。
RDD相当于是一个元数据,存储着数据实际的分区和计算逻辑。
Block-Manager负责管理RDD的物理分区。


image.png

参考资料:
《Spark大数据处理》第三章

上一篇 下一篇

猜你喜欢

热点阅读