001_spark的前世今生
2019-06-07 本文已影响0人
iarchitect
spark是什么
spark是一种通用的大数据计算框架,正如传统大数据技术Hadoop的MapReduce,Hive引擎,以及storm流式实时计算引擎等。
spark包含了大数据领域常见的各种计算框架:比如spark core用于离线计算,spark sql 用于交互式查询,spark streaming用于实时流式计算,spark MLlib用于机器学习,spark GraphX用于图计算。
spark 主要用于大数据的计算,而Hadoop以后主要用于大数据的存储(比如HDFS,hive,hbase等),以及资源调度(Yarn)。
spark+Hadoop的组合,是未来大数据领域最热门的组合,也是最有前景的组合!
![](https://img.haomeiwen.com/i11016594/fe5cd04aa4ec5237.png)
spark的介绍
spark是一种“one stack to rule the all”的大数据计算框架,期望使用一个技术堆栈就完美地解决大数据领域的各种计算任务,Apache官方,对spark的定义就是:通用的大数据快速处理引擎。
spark使用spark RDD,spark sql,spark streaming,MLlib,GrahpX成功解决了大数据领域中,离线批处理,交互式查询,实时流计算,机器学习和图计算等最重要的任务和问题。
spark除了一站式的特点之外,另一个重要的特点,就是基于内存进行计算,从而让它的速度可以达到MapReduce,hive的数倍,甚至数十倍!
现在已经有很多大公司正在生产环境下深度的使用spark作为大数据的计算框架,包括ebay,yahoo,bat,网易,京东,华为,大众点评,优酷土豆,搜索等等。
spark同时也获得了多个世界顶级IT厂商的支持,包括IBM,intel等。
![](https://img.haomeiwen.com/i11016594/34773ace3478d328.png)
spark sql 和 hive的关系
![](https://img.haomeiwen.com/i11016594/c1bd004edbbd8516.png)
spark vs hive
![](https://img.haomeiwen.com/i11016594/97e5f329f1aa3d61.png)
spark streaming和storm的计算模型对比
![](https://img.haomeiwen.com/i11016594/4617759ca4e0258e.png)
![](https://img.haomeiwen.com/i11016594/c08accb20ca349a5.png)
spark的个人使用体会
![](https://img.haomeiwen.com/i11016594/d66ff4296847d1f9.png)
spark在国内的现状以及未来的期望
![](https://img.haomeiwen.com/i11016594/8e0627f0dcb44713.png)