Spark RDD
2017-11-05 本文已影响0人
98Future
reference: https://www.tutorialspoint.com/apache_spark/apache_spark_rdd.htm
Map-Reduce的瓶颈:
多个Map-Reduce job之间, 会先把data存到stable storage system: HDFS里。然后再read出来。
可以认为是硬盘的读取,非常慢。所以Hadoop花了90%在IO读取上。
以下是map-reduce的结构:
Key in Spark是使用RDD。支持in memory processing computation.
把中间结果存放在分布式内存里,如果数据太大存不下才会放在disk。