hadoop概述

2020-07-08  本文已影响0人  一拳超疼

题记

本文资料来源于拉钩大数据开发高薪训练营。


先说题外话:
比较幸运,能在实习的第一份工作能做自己喜欢的大数据,大数据令人着迷,挖掘数据价值的过程无疑精彩。
在工作中,通过完成需求的过程学习到很多大数据开发的知识,但是各种各样的大数据组件需要进行学习使用。快速的学习和上手各种大数据组件让我拥抱了需求,但是遇到问题大多只能百度谷歌,我认识到我需要回炉重造。
因此,我将会在简书将我各个阶段的学习个人所得进行总结,以此建立我的大数据应用知识体系,并在每篇文章开头标注我的知识来源,以表感谢。

大数据的简介

⼤数据是指⽆法在⼀定时间范围内⽤常规软件⼯具进⾏捕捉、管理和处理的数据集合,是需要新处理模
式才能具有更强的决策⼒、洞察发现⼒和流程优化能⼒的海量、⾼增⻓率和多样化的信息资产。

简而言之:我认为大数据是一种新的数据存储和计算模式,相比较于传统的Oracle数仓等,以hadoop的hdfs文件系统作为比较,其存储数据的方式不同。前者关心每条数据具体的强关系,后者则更注重于数据能否完好存储,不要出现数据的损失为主,发现数据价值的工作则交给各种各样的计算框架来完成。从某种意义上来说,这是一种数据存储和关联的解耦,带来的好处是:大量数据的存储便利和低廉的维护成本,以及架设在分布式生态环境上的分布式计算带来的高速数据计算。

大数据的特点

hadoop的简介

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models.

在狭义上: hadoop是一个集大数据分布式存储和计算一体的平台。
在广义上: hadoop代表大数据的一个技术生态圈,主要表现在其hdfs的强大以及yarn的通用性。
如果有人问你,Spark和hadoop最大的不同是什么,记得回答Speak只是一个计算框架,而hadoop则即有存储的能力也有计算的能力。

hadoop的起源

Hadoop最早起源于Nutch,Nutch 的创始⼈是Doug Cutting

老生常谈,说起hadoop的起源,不可不讲谷歌的三驾马车。
这三架马车其实是Google的三篇论文:
GFS:Google的分布式文件系统, 后来演变出HDFS。
MapReduce:Google的分布式计算框架,后来演变为Hadoop上的MapRuduce(注意:两者虽名字相同,但不是一个东西)。
BigTable:大型的非关系型分布式数据库,后来演变出Hbase。

hadoop的特点

hadoop的发行版本

hadoop的优缺点

上一篇 下一篇

猜你喜欢

热点阅读