hadoop

Hadoop(一):Hadoop概述

2021-11-30  本文已影响0人  codeMover

大数据概念

大数据:指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合;需要新处理模式才能具有更强的决策力、洞察力和流程优化能力的海量、高增长率和多样化的信息资产。
大数据主要解决:海量数据的采集、存储和分析计算问题。
bit-->byte-->kb-->mb-->gb-->tb-->pb-->eb-->zb-->yb

大数据特点

Volume(大量化)

截止目前,人类生产的所有印刷资料的数据量是200pb,而历史上全人类总共说话的话大约是5eb。当前,典型个人计算机硬盘的容量为TB级别,而一些大数据企业的数据量已经接近EB数量级。

Volocity(速度化)

这是大数据区分于传统数据挖掘的最显著特征。根据IDC的“数字宇宙报告”,预计到2025年,处理海量数据的效率就是企业的生命。

Variety(多样化)

这种类型的多样化也让数据被分为结构化数据和非结构化数据。相对于以往便于存储的以数据库/文本为主的结构化数据,非结构化数据越来越多,包括网络日志、音频、视频、图片、地理位置等,这些多类型的数据对数据处理能力提出了更高要求。

Value(低价值密度)

低价值密度的高低与数据总量的带下成反比。如何快速对现有价值数据“提纯”成为大数据背景下待解决的难题。

大数据应用场景

Hadoop是什么

0)创始人Doug Cutting;
1)成长过程:Lucene–>Nutch—>Hadoop
2)Hadoop是一个由Apache基金会所开发的分布式系统基础架构;
3)主要解决海量数据的存储和分析计算问题;
4)广义上讲,Hadoop通常是指一个广泛的概念(Hadoop生态圈,hadoop、zk、hive等)
5)Hadoop起源于Google的三大论文,具体见下表

描述 演变
GFS Google的分布式文件系统Google File System HDFS
MapReduce Google的MapReduce开源分布式并行计算框架 MapReduce
BigTable 一个大型的分布式数据库 HBase

Hadoop三大发行版本

Hadoop优缺点

优点:

缺点:

小结

GFS、MapReduce和BigTable是Google的三种大数据处理系统,在Hadoop中就实现了其中的两种(GFS\MapReduce)。
Hadoop的学习是大数据入门的基础。本篇简短介绍了大数据及hadoop相关概述,理解相关概念对后面MapReduce和HDFS学习有很大帮助。

引用:

hadoop优缺点

上一篇下一篇

猜你喜欢

热点阅读