你也可以这么优秀

2018-07-26 本文已影响5人清风_d587

小知识点-大数据处理之初步理解

单机处理时扩展到集群处理：单机数据处理à集群大数据处理

对应的变化：

[if !supportLists]1. [endif]单机上的计算à 集群中的计算

[if !supportLists]2. [endif]单机上的数据存储à集群中的数据存储

[if !supportLists]3. [endif]单机上的计算资源极其管理 à集群中的计算资源极其管理

将生态圈中的各个框架对应到计算、数据存储于资源管理三大部分：

[if !supportLists]1. [endif]集群计算：Spark计算框架、Hadoop的MR计算框架等等…..

[if !supportLists]2. [endif]集群数据存储：Hadoop的HDFS、Tachyon、S3等等…..

[if !supportLists]3. [endif]集群资源管理：YARN、MESOS、Spark的Standalone模式中的Master等等…..

集群数据存储对外提供数据读写接口，集群资源管理对外提供资源分配与释放接口，集群计算负责从集群资源管理框架中申请/释放资源、从集群数据存储框架中读写数据，具备数据和计算所需资源后，启动具体的计算过程。

比如，Spark计算框架可以使用HDFS，S3等等各种数据存储框架，因为这些框架提供了数据读写接口，Spark计算时可以通过这些接口进行数据读写。

同样也可以使用各种资源管理框架，如mesos，yarn或自带的Master组件，通过向这些框架申请/释放资源，来获取计算所需的资源。

总结：计算框架、数据存储框架、资源管理框架等，都可以看成是一个个可插拔的组件组合使用。

联系人395145328

还不抓紧学习