技术浅谈3:大数据的来龙去脉
上一期,我们聊到了做披萨的三种方法。哦?不对,应该是云计算的三种模式。之前提到了大数据是云服务中PAAS服务的一种,但是,大数据是如何产生的呢?为什么现在社会的发展需要依赖大数据技术呢?
大数据的起源
说到大数据的起源,我们必须了解到数据是什么。数据其实是IT时代的产物,它是事实或观察的结果,是对客观事物的逻辑归纳,是用于表示客观事物的未经加工的原始素材。
其实,在计算机刚普及的年代,数据量并不大。举个简单的例子,大家可能用过电脑,那么就会发现,电脑里面并没有A盘和B盘,系统盘都是从C盘开始的,那么A盘和B盘去哪里了呢?
在计算机刚诞生的年代,那时候的电脑没有硬盘和光驱,人们把应用程序和文件都存放在软盘上,而启动电脑主要靠软驱。因此,一台电脑常常会安装两个软驱,即3.5英寸和5.25英寸的两个软驱,分别被定义为A盘和B盘。然而A盘存储大小是1.44MB,形状大小是3.5寸软盘,主要是为了存储操作系统文件。而B盘的存储大小是360K,形状大小是5.2寸软盘,是用来存放一般文件,基本上是随便保存几个文档就满了。随着时代的发展,A盘和B盘就慢慢被淘汰了。
传说中的A盘也就是说,数据和技术的发展是一样的,技术的不断迭代,也使得数据量也在不断增加。其中,数据量的增加的主要原因,还是因为互联网技术的不断发展,我们可以明显感知的是,微信的每日的用户使用量超过了10亿,抖音APP现在每天的用户使用量超过4亿,淘宝APP的每日用户使用量也快达到了3亿。这些数据都表明了,传统存放数据的仓库(数据库)已经不能满足互联网浪潮下的海量数据。于是,就需要一种新的技术来支撑互联网时代的数据发展。
大数据的发展历程
2008年9月,美国《自然》(Nature)杂志专刊——The next google,第一次正式提出“大数据”概念。
大数据的第一次记载:the next google2011年2月1日,《科学》(Science)杂志专刊——Dealing with data,通过社会调查的方式,第一次综合分析了大数据对人们生活造成的影响,详细描述了人类面临的“数据困境”。
2011年5月,麦肯锡研究院发布报告——Big data: The next frontier for innovation, competition, and productivity,第一次给大数据做出相对清晰的定义:“大数据是指其大小超出了常规数据库工具获取、储存、管理和分析能力的数据集。”
而在中国,对于大部分人来说,大数据的耳熟能详还应该来源于马爸爸在2014年6月29号在清华大学的演讲:人类正从IT时代走向DT时代。而里面提到的DT正式Data Technology,就是指的“大数据时代”。
马云第一次在演讲中提到DT时代从此,大数据技术以及提供大数据服务的公司便如雨后春笋般在神舟大地开花了。
大数据的特性
2009年,IBM对大数据的特性就有了明确的定义,他们分别是:Volume(大量)、Velocity(快速)、Variety(多样)、Value(低价值密度)、Veracity(真实性)
那么如何理解这5个特性呢?
-
大量
顾名思义,代表数据量很大,记录单位都是PB到EB等级,有的甚至到ZB,这里说PB大家可能概念。就拿我们的手机存储空间来说,常用的128G,那么1024G就等于1TB,1024TB=1PB,1024PB=1EB,大家可以看到数量递增是1024倍。现在的个人电脑硬盘容量已经开始普及TB级别了。 -
快速
主要指的是数据的时效性,大数据的特点是实时分析和处理,那么时效性数据就是很关键的要素。举个例子来说,我们出行需要知道温度来判断我们需要准备的装备,如果我们不能拿到实时天气数据,那么就无法判断我们该准备什么装备,进而大大影响了出行的心情与结果。 -
多样
我们在生活或者工作中,经常会遇到各种各样的数据,比如文档类、图片类和视频类的数据,这种数据也称为非结构化数据;还有诸如表格、记事本记录下来的有规则的数字,这种称为结构化数据;平时我们浏览网页时,常常会遇到HTML格式的内容,这种也称为半结构化数据。以上数据的汇总,就是数据多样性的由来。 -
低价值密度
代表价值密度低,价值密度的高低与数据总量的大小成反比。因为数据多了以后,有价值的数据就会很零散,显得密度很低。就好比大海捞针一样,假设针是有价值的东西,那么海量的数据就是大海,那么数据量越多,针就越难捞,大数据就是为了解决如何从大海中捞出针的问题。 -
真实性
前面提到了,数据就是客观事实的逻辑归纳,那么大数据也不例外,数据来源于真实生活,那么,数据呈现的价值才有意义。对于我们而言,每次出行、购物和吃饭等,都是可靠的数据来源,只有基于此,才能从庞大的数据中提炼出描述事实和预测行为的依据。
好了,大数据的优点也不用多说了,相信大家都了解得很清楚。关于大数据的话题,是一个很深的学问,大家都是在探索的过程中不断发现更多的价值和希望。本期技术浅谈就到这里吧,我们下期见~