面试 | Spark知识点@20190104

2019-01-04  本文已影响6人  digger30

RDD cache

当持久化某个RDD后,每一个节点都将把计算的分片结果保存在内存中,并在对此RDD或衍生出的RDD进行的其他动作中重用,以提升计算效率。

RDD checkpoint容错机制

缓存有可能丢失,或者存储于内存的数据由于内存不足而被删除。通过基于RDD的一系列转换,丢失的数据会被重算,由于RDD的各个partition是相对独立的,因此只需要计算丢失的那一部分数据即可,并不需要重新计算全部partition。但是多次迭代后数据丢失的重新计算,会影响这个效率。因此,RDD的缓存容错机制保证了即使缓存丢失也能保证快速的恢复,而不是重新计算。checkpoint是保存在hdfs目录中,保证了存储的可靠性。

行存储和列存储优缺点

列式存储在大数据存储中的优势

上一篇 下一篇

猜你喜欢

热点阅读