##(下) 大数据发展历史以及大数据和BI的根本区别(下)
//
深度解析,一文诠释大数据发展历史以及大数据和BI的根本区别(下) - 惊帆的BLOG
http://www.bucry.com/archives/1896.html
借助底层数据处理能力,在之上通过构建模型,为企业提供决策,逐渐成为目前数据方向一个比较清晰的定位,尤其以洛杉矶基于大数据的犯罪预测系统为首,基本掀开了一个新的领域。
然而,除开一些主流有前沿技术的科技公司,大多数的其余企业,其需求依旧停留在简单的数据统计,报表分析,明细检索程度。
于是很多企业开始主导大数据方案,也许现在并没有什么需求,但是先把大数据做起来再说,就像:
也许还没有老婆,但是先把婚纱买了再说,也许哪一天就用上了。
在这种情况下,一大波的BI系统逐渐被改造。DBMS变成了HDFS,SQL变成了RDD,CUBE被消除。
可是对于这些企业,原始的需求并没有发生变化,出的还是那些报表,画的还是那些饼图,经过长时间的折腾之后,以前BI的那些界面再次被显示了出来。
所以诞生了一个疑问:这不就是以前的BI吗?
众多的大数据平台,规划着10年后的智能时代,却死在了今天的固定报表。
前面介绍到,伴随着数据5V的产生,GFS, MapReduce ,BigTable三大组件被开发出来。分别承担不同的职责,针对海量数据的存储,处理,检索。
技术和业务总是这样相辅相成,当技术满足不了业务的时候,技术必须突破,一旦技术突破,业务便有了更大的发展空间。
三大组件从技术上解决了海量数据的处理问题,自然会被逐渐的应用到市场上,亚马逊首先开始采用MapReduce模式分析了存储在亚马逊上的PDF文件,并且将其转换成文本,紧接着其他厂商开始争相模仿,于是围绕着大数据处理的生态圈掀起了一波热潮,更多的技术公司投入其中,研发专门具有针对性的大数据框架的发型版本,例如cloudera,intel,华为等等一系列厂商企图通过框架的方式囊括更多的开发者投入其中。
随着数据处理量的增加,处理时间的减少,带动了另外一个领域的发展:统计学。
在以前的统计学里,各种指标,统计,算法,基于以下两点,更多的是依赖于抽样调查:
数据采集的困难
数据量太大,分析的困难
而大数据生态圈正好针对这两部分,并且对非结构化,半结构化数据有着良好的处理方式,于是再也不用抽样了。
另一方面,机器学习这一有着古老历史,但是却多年来受冷门的古董,借助着大数据的浪潮,再次站在了数据的舞台。
所以,借助底层数据处理能力,在之上通过构建模型,为企业提供决策,逐渐成为目前数据方向一个比较清晰的定位,尤其以洛杉矶基于大数据的犯罪预测系统为首,基本掀开了一个新的领域。
然而,除开一些主流有前沿技术的科技公司,大多数的其余企业,其需求依旧停留在简单的数据统计,报表分析,明细检索程度。
随着数据量的增加,BI工具越来越困难。
看着数据框架一个又一个的产生,无论是炒概念,还是实际实施,总是显得那么诱人。
于是很多企业开始主导大数据方案,也许现在并没有什么需求,但是先把大数据做起来再说,就像:
也许还没有老婆,但是先把婚纱买了再说,也许哪一天就用上了。
在这种情况下,一大波的BI系统逐渐被改造。DBMS变成了HDFS,SQL变成了RDD,CUBE被消除。
可是对于这些企业,原始的需求并没有发生变化,出的还是那些报表,画的还是那些饼图,经过长时间的折腾之后,以前BI的那些界面再次被显示了出来。
所以诞生了一个疑问:这不就是以前的BI吗?
众多的大数据平台,规划着10年后的智能时代,却死在了今天的固定报表。
悲催。。。
备注:
//数据平台应用场景:
数据源异构
数据内容没有明确的schema
数据量过大
数据变动快
数据价值密集度低
数据修改频率低
数据关联度高
//BI套件应用场景:
数据被规整结构化的存储
数据价值密集度高
数据有明确的schema
数据被频繁修改
数据关联度低