初见《致雨轩》原创文学社那些没人看的文章

大数据的特点,发展史,生态圈等,以及为什么要用大数据?

2020-01-31  本文已影响0人  javap

知识要点:

什么是大数据

大数据的特点

大数据发展史

为什么使用大数据

大数据生态圈介绍

Hadoop及其发行版

大数据职位介绍

什么是大数据

大数据(Big Data),指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。
图灵奖得主詹姆士·格雷在2007年提出将科学研究分为四类范式,依次为:

大数据的特点

Volume 数据量
大数据的特征首先就体现为“大”。随着信息技术的高速发展,数据开始爆发性增长。社交网络(微博、推特、脸书)、移动网络、各种智能工具,服务工具等,都成为数据的来源。淘宝网近4亿的会员每天产生的商品交易数据约20TB;脸书约10亿的用户每天产生的日志数据超过300TB。迫切需要智能的算法、强大的数据处理平台和新的数据处理技术,来统计、分析、预测和实时处理如此大规模的数据。


Velocity 速度
大数据的产生非常迅速,主要通过互联网传输。生活中每个人都离不开互联网,也就是说每天个人每天都在向大数据提供大量的资料。并且这些数据是需要及时处理的,因为花费大量资本去存储作用较小的历史数据是非常不划算的,对于一个平台而言,也许保存的数据只有过去几天或者一个月之内,再远的数据就要及时清理,不然代价太大。基于这种情况,大数据对处理速度有非常严格的要求,服务器中大量的资源都用于处理和计算数据,很多平台都需要做到实时分析。数据无时无刻不在产生,谁的速度更快,谁就有优势。

Variety 多样性
广泛的数据来源,决定了大数据形式的多样性。任何形式的数据都可以产生作用,目前应用最广泛的就是推荐系统,如淘宝,网易云音乐、今日头条等,这些平台都会通过对用户的日志数据进行分析,从而进一步推荐用户喜欢的东西。日志数据是结构化明显的数据,还有一些数据结构化不明显,例如图片、音频、视频等,这些数据因果关系弱,就需要人工对其进行标注。
单位/min
Value 价值
如果数据没有价值,我们就没有分析的必要。因此,大数据要求我们处理的数据集是有巨大商业价值或社会价值的。阿里巴巴愿意花巨大代价提高推荐系统的准确性,就是在于其推荐系统的准确率的提高,能大大提高平台的交易量,从而具有非常巨大的商业价值。我们在全国部署“天眼”系统,提高大数据技术在天眼系统的分量,就是因为天眼系统分析能力的一小步提升,都能在降低犯罪率、打击犯罪、保障人民群众安全、信用取证等方面都有巨大的社会价值。

大数据发展史

为什么使用大数据

一切,都起源自数据爆炸时代的来临
一种规模大到在获取、存储、管理、分析方面大大超出了传统数据库软件工具能力范围的数据集合。

大数据生态圈介绍

Hadoop及其发行版

①Apache原生hadoop
Apache社区版本的hadoop是完全开源免费的,非商业发行版。社区活跃性以及文档、资料详实等方面。
但在选择其他如HBase,Hive等组件时就需要考虑兼容性的问题。
②商业发行版
Cloudera(CDH)
Cloudera 于2008年成立,是最早将Hadoop商业化的公司,主要为合作伙伴提供 Hadoop 的商用解决方案。在早期Hadoop的创始人Doug Cutting也任职于 Cloudera 公司。Cloudera的产品为:
CDH:Hadoop发行版,完全开源,比Apache Hadoop在兼容性,安全性稳定性上有增强。
Cloudera Manager:集群的软件分发及管理监控平台,可以在几个小时内部署好一个Hadoop集群,并对集群的节点及服务进行实时监控。
Cloudera Support:Hadoop技术支持。
Hortonwork(HDP)
Hortonworks是雅虎与硅谷风投公司Benchmark Capital合资组建的公司。其主要产品:
Hortonworks Data Platform (HDP):100%开源的产品,HDP除了常见的组件外还包含了,一款开源的安装和管理系统(Ambari)和一个元数据管理系统(HCatalog)。
** 注:Cloudera和Hortonworks于2018年合并。**
MapR
于2009年成立。用新架构重写HDFS,同时在API级别和目前的Hadoop 发行版保持兼容。
EMC Greenplum HD
IBM InfoSphere BigInsights

大数据职位介绍

上一篇 下一篇

猜你喜欢

热点阅读