大数据工具Hadoop快速入门2Hadoop简介
简介
Apache HADOOP是用于开发分布式计算环境中执行的数据处理应用程序的框架。
与驻留在个人计算机系统的本地文件系统中的数据类似,在Hadoop中,数据驻留在称为Hadoop分布式文件系统 。
处理模块基于Data Locality概念,其中计算逻辑被发送到包含数据的集群节点(服务器)。
这种计算逻辑只不过是用Java等高级语言编写的程序的编译版本。 这样的程序,处理存储在Hadoop HDFS中的数据。
架构
图片.pngApache Hadoop包含两个子项目 -
-
Hadoop MapReduce :MapReduce是计算模型和软件框架,用于编写在Hadoop上运行的应用程序。 这些MapReduce程序能够在大型计算节点集群上并行处理大量数据。
-
HDFS ( Hadoop分布式文件系统 ):HDFS负责Hadoop应用程序的存储部分。 MapReduce应用程序使用HDFS中的数据。 HDFS创建多个数据块副本,并将它们分发到群集中的计算节点上。 这种分布可以实现可靠且极其快速的计算。
尽管Hadoop以MapReduce及其分布式文件系统HDFS而闻名,但该术语还用于属于分布式计算和大规模数据处理的一系列相关项目。Apache的其他Hadoop相关项目包括Hive , HBase , Mahout , Sqoop , Flume和ZooKeeper 。
'Hadoop'的特点
•适用于大数据分析
由于大数据往往是分布式和非结构化的,HADOOP集群最适合分析大数据。 由于处理逻辑(不是实际数据)流向计算节点,因此消耗的网络带宽较少。 这个概念被称为**data locality ** ,有助于提高基于Hadoop的应用程序的效率。
•可扩展性
通过添加额外的集群节点,可以轻松地将HADOOP集群扩展到任何规模,从而允许大数据的增长。 此外,扩展不需要修改应用程序逻辑。
参考资料
- python测试开发项目实战-目录
- python工具书籍下载-持续更新
- python 3.7极速入门教程 - 目录
- 讨论qq群630011153 144081101
- 原文地址
- 本文涉及的python测试开发库 谢谢点赞!
- [本文相关海量书籍下载](https://github.com/china-testing/python-api-tesing/blob/master/books.md
Hadoop中的网络拓扑
图片.png在Hadoop中,网络表示为树,树节点之间的距离(跳数)被认为是Hadoop集群形成的重要因素。 这里,两个节点之间的距离等于它们与最近共同祖先的距离之和。
Hadoop集群由数据中心,机架和实际执行作业的节点组成。 这里,数据中心由机架组成,机架由节点组成。