大数据学习玩转大数据大数据

12个顶级大数据工具

2018-04-26  本文已影响52人  Alukar

如今,为了满足企业的主要需求,大数据工具正在迅速得到应用。在大数据技术作为概念和业务战略出现的十年中,涌现了执行各种任务和流程的数千种工具。而推出这些工具的提供商都承诺可以为企业节省时间和成本,并发现能够让企业获利的商业洞察力。显然,大数据分析工具的市场正在不断增长。

许多大数据分析工具最初像大数据软件框架Hadoop一样都是开源项目,但商业实体迅速涌现,为开源产品提供了新工具或商业的支持和开发。

而在这些工具中选择是一个挑战,特别是许多大数据工具只具有单一用途,而企业需要使用大数据完成许多不同的任务,因此企业的分析工具箱会变得过于充实。根据这个行业领域的专家顾问的建议,以下列出一系列主要的大数据分析工具,并列出三个主要类别。

主要的大数据工具

如上所述,大数据工具都倾向于单一使用类别,并且有多种使用大数据的方式。所以可以按类别分类,然后分析每个分析工具。

||  大数据工具:数据存储和管理

大数据都是从数据存储开始。这意味着从大数据框架Hadoop开始。它是由Apache Foundation开发的开源软件框架,用在计算机集群上分布式存储非常大的数据集。

显然,存储对于大数据所需的大量信息至关重要。但更重要的是,需要有一种方式来将所有这些数据集中到某种形成/管理结构中,以产生洞察力。因此,大数据存储和管理是真正的基础,而没有这样的分析平台是行不通的。在某些情况下,这些解决方案包括员工培训。

而这个领域的主要的大数据工具有:

1. Cloudera

基本上,Hadoop增加了一些额外的服务,企业将需要这些服务,因为大数据并不是一个简单的练习。 Cloudera的服务团队不仅可以帮助企业构建大数据集群,还可以帮助培训员工更好地访问数据。

2. MongoDB

MongoDB是最流行的大数据数据库,因为它适用于管理大数据经常出现的非结构化数据或频繁更改的数据。

3. Talend

作为一家提供广泛解决方案的公司,Talend的产品是围绕集成平台构建的,该平台结合了大数据、云计算、应用程序,以及实时数据集成、数据准备和主数据管理。

Talend大数据集成包括数据质量和治理功能

||  大数据工具:数据清理

在企业真正处理大量数据以获取洞察信息之前,先需要对其进行清理、转换并将其转变为可远程检索的内容。大数据集往往是非结构化和无组织的,因此需要进行某种清理或转换。

在这个时代,数据的清理变得更加必要,因为数据可以来自任何地方:移动网络、物联网、社交媒体。并不是所有这些数据都容易被“清理”,以产生其见解,因此一个良好的数据清理工具可以改变所有的差异。事实上,在未来的几年中,将有效清理的数据视为是一种可接受的大数据系统与真正出色的数据系统之间的竞争优势。

4. OpenRefine

OpenRefine是一款易于使用的开源工具,通过删除重复项、空白字段和其他错误来清理凌乱的数据。它是开源的软件,但它有一个可以提供帮助的大型社区。

5. DataCleaner

与OpenRefine类似,DataCleaner将半结构化数据集转换为数据可视化工具可读取的干净可读的数据集。该公司还提供数据仓库和数据管理服务。

6. Microsoft Excel

人们可以从各种数据源导入数据。Excel对手动数据输入和复制/粘贴操作特别有用。它可以消除重复、查找、替换,拼写检查以及用于转换数据的许多公式。但它很快陷入困境,并不适用于大数据集。

||  大数据工具:数据挖掘

一旦数据被清理并准备好进行检查,就可以通过数据挖掘开始搜索过程。这就是企业进行实际发现、决策和预测的过程。

数据挖掘在很多方面都是大数据流程的真正核心。数据挖掘解决方案通常非常复杂,但力求提供一个令人关注和用户友好的用户界面,这说起来容易做起来难。数据挖掘工具面临的另一个挑战是:它们的确需要工作人员开发查询,所以数据挖掘工具的能力并不比使用它的专业人员强。

7. RapidMiner

RapidMiner是一款易于使用的预测分析工具,具有非常用户友好的可视化界面,这意味着企业无需编写代码,即可运行分析产品。

8. IBM SPSS Modeler

IBM SPSS Modeler是一套适用于企业级的高级分析的产品,用于数据挖掘。而IBM的服务和咨询无疑是首屈一指的。

9. Teradata

Teradata为数据仓库、大数据和分析以及市场营销应用提供端到端解决方案。这一切意味着企业的业务可以真正成为一个数据驱动的业务,并提供商业服务、咨询、培训和支持。

像许多当前的大数据工具一样,RapidMiner解决方案也包含云计算解决方案

||  大数据工具:数据可视化

数据可视化是企业的数据以可读的格式显示的方式。这是企业查看图表和图形以及将数据放入透视图中的方法。

数据的可视化与科学一样,是一种艺术形式。而大数据公司将拥有越来越多的数据科学家和高级管理人员,很重要的一点是可以为员工提供更加广泛的可视化服务。销售代表、IT支持、中层管理等这些团队中的每一个成员都需要理解它,因此重点在于可用性。但是,易于阅读的可视化有时与深度特征集的读取不一致,这成为了数据可视化工具的一个主要挑战。

10. Tableau

作为这一领域的领导者之一,其数据可视化工具专注于商业智能,无需编程即可创建各种地图、图表、图形等等。Tableau总共有五款产品,其中有一个名为Tableau Public的免费版本供潜在客户试用。

11. Silk

Silk是一种简单版本的Tableau,Silk可让企业将数据可视化为地图和图表,而无需任何编程。它甚至会尝试在第一次加载时自动将数据可视化。它还使得在线发布结果变得容易。

12. Chartio

Chartio使用自己的可视化查询语言,只需点击几下即可创建功能强大的仪表板,而无需了解SQL或其他建模语言。与其他不同的是,企业直接连接到数据库,因此不需要数据仓库。

||  IBM Watson Analytics

IBM Watson Analytics是机器学习(ML)和人工智能(AI)的结合,可帮助提供智能数据科学助理,为业务分析师和数据科学家提供广泛的数据科学技能集的用户指南。

||  三层大数据工具

普华永道移动数据和分析计划首席技术官Ritesh Ramesh说,就精密程度和市场战略而言,大数据工具分解为三层。

第一层:也是最大的一层,是一系列开源工具。每家公司都以这种方式开始,像Cloudera和Hortonworks。除了基本的基础设施。服务器和存储之外,价值非常小。大多数云计算厂商已经将这一层实现商品化。

第二层:这是大多数这些供应商已经意识到需要增加他们的市场份额的地方,他们必须在开放源代码工具之上构建一些专有应用程序,从而与其他供应商区分开。例如,Cloudera公司构建了一些类似于Hadoop内核中的数据科学平台。

第三层:这些是垂直专用的应用程序。这些公司大多与普华永道、Cognizant或埃森哲等系统集成商合作。这就是真正的价值所在,而且这也是大数据工具制造商非常有效的竞争策略。

Ramesh说,除了基本功能之外,还有三个工具需求领域。首先是数据处理工具。他说,“数据学习工具是客户进行数据质量和性能分析的工具包中的重要工具,可处理5000万行数据,以发现洞察力。”

他说,行业领先的供应商还包括Trifacta,Paxata和Talend公司。

第二大类应用程序是治理的应用程序,例如企业如何拥有元数据定义。“很多人都为此而努力。人们将大量垃圾转储到数据湖中。市场上没有多少工具可以在数据湖中有效地工作。由于大部分这项工作都是由IT人员完成的,他们更有兴趣将数据输入到数据湖中,而不是将治理结构置于其周围。”Ramesh说。

这个行业领域的顶级供应商:Waterline Data,Tamr的数据编目工具和Collibra。

经常出现的第三类需求是安全性的应用程序。Ramesh说,“人们希望单一产品具有所有安全访问层、列、行和对象。他们希望支持差异数据对象的用户访问和安全性的产品。”

这个行业领域的主要供应商是Wandisco公司和FireEye公司。

长按识别关注我们,收看更多大数据精彩内容!

上一篇下一篇

猜你喜欢

热点阅读