Spark RDD

2017-11-05  本文已影响0人  98Future

reference: https://www.tutorialspoint.com/apache_spark/apache_spark_rdd.htm

Map-Reduce的瓶颈:

多个Map-Reduce job之间, 会先把data存到stable storage system: HDFS里。然后再read出来。

可以认为是硬盘的读取,非常慢。所以Hadoop花了90%在IO读取上。

以下是map-reduce的结构:

Key in Spark是使用RDD。支持in memory processing computation. 

把中间结果存放在分布式内存里,如果数据太大存不下才会放在disk。

上一篇下一篇

猜你喜欢

热点阅读