大数据Hadoop和Spark哪个更重要一些？

2018-06-19 本文已影响656人 6816ee4e9ca0

当前有不少公司将Spark和Hadoop同步使用，从一名使用者的角度来看，Spark作为一种大数据通用的计算引擎，可能目前尚未成熟，但有朝一日替代Hadoop并非不可能。

1. 相同的算法，Spark比Hadoop快数倍，如果是一些迭代或者要对数据反复读取的算法，Spark比Hadoop快数十倍至上百倍；

2. Spark对于数据的操作种类更多，对于一些比较特殊的计算需求，比如求两个集合的交集并集，Spark都有函数直接计算，而Hadoop实现这样的计算无比繁琐；

大数据学习群：716581014

3. Spark的开发效率比Hadoop高很多。

但同时也要看到，Hadoop作为一种分布式系统基础架构，在目前的企业应用中是比较容易实现的，而且实施成本较低。它的开源特性也使其较为实用。

从内容层面来讲，Spark也并非无懈可击，目前来看Spark还有很多bug，而且可以看的资料也不多。

对于大数据的学习者来说，小编还是建议两者都不要轻视，都应该当做重点来学习，因为两者目前在企业中的应用都是比价广泛而重要的。如果有同学需要Hadoop和Spark资料的同学可以私信小编。

大数据学习群：716581014 一起学习努力