大数据研究报告:Spark最受欢迎,机器学习库MLib采用率持续
摘要:Dresner Advisory Services近期发表了《2017年大数据分析市场研究》报告,报告指出:53%的公司已经开始使用大数据分析;Spark,MapReduce和Yarn是当今最流行的三种大数据框架;机器学习继续获得更多的行业支持和投资计划,Spark Machine Learning Library(MLib)的采用率预计在未来12个月内将增长60%。
大数据 学习QQ群:199427210
德累斯顿咨询服务公司(Dresner Advisory Services)近期发表了《2017年大数据分析市场研究》报告,这是该公司Crowds®系列研究中的一部分。这个系列报告将大数据分析定义为最终用户能够访问、分析和管理Hadoop生态体系中数据的一套系统,连续第三年考察与分析了大数据分析最终用户的使用趋势与使用意图。
1. 使用大数据的公司比例首次超过50%
大数据分析增长趋势
目前,正在使用大数据的公司比例从2015年的17%迅速增长至53%,首次超过了50%。另外有36%的受访者表示未来会使用大数据分析,仅仅有11%的受访者表示暂时没有使用记录(这是近三年来历史最低)。电信与金融服务公司大数据分析服务最活跃的早期应用者,也是增速最快的行业,接下来的是科技与医疗行业,而教育行业的大数据应用者占比最低。但是,大部分的教育公司正在评估是否使用大数据分析。
大数据分析在各个行业的使用状况
2. 数据仓库优化被认为是大数据分析最主要的使用场景
大数据分析使用场景
数据仓库优化被认为是大数据分析最主要的使用场景,70%的受访者认为数据仓库优化是重要或非常重要。客户/社交分析与预测是排在第二位的使用场景,预测与维护排在第三位。很有趣的是,在物联网(IoT)领域,大数据分析似乎并不是那么重要。在行业中大数据分析使用场景差别很大,在金融服务和电信行业中,数据仓库优化是主要使用场景,欺诈检测应用比例也较高,而科技公司则主要使用大数据分析进行医疗保健和客户/社交分析。
各行业主要使用场景
3. Spark是最受欢迎的的数据框架,SparkSQL是最受欢迎的大数据访问方式
大数据框架
Spark成为最受欢迎的大数据框架,超过70%的受访者认为Spark重要或非常重要,排在二三位的是MapReduce和Yarn。在大数据访问方式上Spark SQL、Hive、HDFS和Amazon S3最受欢迎。73%的受访者认为Spark SQL对他们的分析策略至关重要, 而超过30%的受访者认为Hive和HDFS也很重要。 作为五大数据访问方式之一的亚马逊S3也具有较高认可程度。
大数据访问方式
4. MLib将主导整个机器学习
机器学习继续获得更多的行业支持和投资计划,Spark 机器学习库(Spark Machine Learning Library,MLib)当前意46%使用率排在首位。在接下来的12个月里,这一数字有望增长60%到72%。未来两年将主导整个机器学习。
机器学习框架使用分布