spark mapreduce

2017-07-27 本文已影响0人博瑜

spark:
1.需要重复读取同样数据进行迭代计算
2.流式实时
3.内存大，快内存换存储
4.scala，java
5.交互模式
6.可独立运行，不依托 yarn，hdfs(不是必须）
mapreduce
1.单次读取，类似ETL（抽取转换加载），跑批
2.JAVA
3.没有交互模式
4.磁盘io 存储换内存
5.基于hadoop生态圈，需要任务调度yarn mesos，高可用存储 hdfs alluxio等。