数据科学与机器学习工具

2020-08-11  本文已影响0人  旭Louis

作者:RAM DEWANI 翻译:欧阳锦 校对:陈汉青

我们得承认——数据科学的范围庞杂,每一个领域要求处理数据的方式各有不同,这让许多分析家/数据库科学家陷入困惑。而如果你是一位商业领袖,你将要选择你和你的公司所使用的工具,这很关键,因为这些工具会产生长期的影响。同样地,问题是你应该选择哪种数据科学工具呢?在本文中,我将通过罗列出数据科学领域广泛使用的工具并细分它们的用途和优势,来帮你解决这些困惑。所以,让我们开始吧!

目录

体量

种类

速度

报告和商业智能

预测建模和机器学习

人工智能

大数据的数据科学工具

为了真正了解大数据背后的深刻意义,我们需要了解给大数据下定义所的基本原理。他们被称为大数据的3V而广为人知。

处理大数据体量的工具

顾名思义,体量是指数据的规模和数量。要了解我在说的数据规模,你需要知道,世界上超过90%的数据是在最近两年内创建的!十年来,随着数据量的增加,该技术也变得越来越好。计算和存储成本的降低使收集和存储大量数据变得更加容易。数据体量定义了它是否符合大数据的条件。当我们的数据范围在1Gb到10Gb左右时,传统的数据科学工具就可以很好地工作。那么这些工具有哪些呢?

Microsoft Excel:

https://www.analyticsvidhya.com/blog/category/excel/?utm_source=blog&utm_medium=22-tools-data-science-machine-learning

image image image

到目前为止我们已经介绍了一些基本工具。现在该放大招了!如果你的数据大于10Gb,甚至超过1Tb+,那么需要使用我在下面提到的工具:

image image

处理大数据种类的工具

数据种类是指存在的不同类型的数据。数据类型可以是以下之一:结构化和非结构化数据。让我们看一下不同数据类型的示例:

image

花一点时间去观察这些示例,并且将它们与你的真实数据关联起来。你可能在结构化数据中观察到,这种类型的数据有固定的顺序和结构,而非结构化数据相反,这些示例并不遵循任何趋势或者模式。例如,顾客反馈在长度、情感和其他方面有所不同。另外,这类数据巨大并且种类繁多。处理这类数据可能非常具有挑战性,那么市场上用于管理和处理这些不同数据类型的数据科学工具有哪些呢?两个最常见的数据库是SQL和NoSQL。在NoSQL出现前,SQL多年来一直是市场主导者。

image

SQL的一些例子是Oracle,MySQL,SQLite,而NoSQL由诸如MongoDB,Cassandra等流行的数据库组成。这些NoSQL数据库由于具有扩展和处理动态数据的能力而被广泛地应用。

处理大数据速度的工具

第三个,也是最后一个V代表了速度。这是捕获数据时的速度,包括实时和非实时数据。我们在这里将主要讨论实时数据。

我们周围有许多捕获和处理实时数据的示例。最复杂的是自动驾驶汽车收集的传感器数据。想象一下,在自动驾驶汽车中,汽车必须同时动态地收集和处理有关车道、与其他车辆的距离等数据!

其他正在收集的实时数据的例子包括:

“你知道吗?在纽约证券交易所的每个交易时段中,都会生成超过1TB的数据!”现在,让我们来看看处理实时数据的一些常用数据科学工具:

image image image image

现在,我们已经掌握了通常用于处理大数据的各种工具,接下来将介绍使用高级机器学习技术和算法来利用数据的部分。

广泛使用的数据科学工具

如果你要建立一个全新的数据科学项目,那么脑海中会浮现很多问题,这与你的水平无关——无论你是数据科学家,数据分析师,项目经理还是高级数据科学主管,都是如此。

你将面对的一些问题是:

在本节中,我们将根据不同领域讨论行业中使用的一些受欢迎的数据科学工具。数据科学本身就是一个广义术语,它由各种不同的领域组成,每个领域都有它自己的业务重要性和复杂性,正如下图所示:

image

数据科学的范围包含了各种领域,上图表示了这些领域的相对复杂性和它们提供的业务价值。让我们讨论一下以上频谱中显示的每一个点。

报告和商业智能

让我们从这个范围的底端开始。报告和商业智能使一个机构能够识别出数据的趋势和模式,从而制定关键的战略决策。这种分析的类型包括MIS、数据分析和仪表板。这些领域中常用的工具有:

image

https://courses.analyticsvidhya.com/courses/tableau-2-0?utm_source=blog&utm_medium=22-tools-data-science-machine-learning

image image image image

预测分析和机器学习工具

顺着前面那个图再往上走,其复杂性和商业价值也变高了!这是大多数数据科学家赖以生存的领域。你将要解决的问题类型是统计建模,预测,神经网络和深度学习。让我们了解一些该领域的常用工具:

https://courses.analyticsvidhya.com/courses/introduction-to-data-science?utm_source=blog&utm_medium=22-tools-data-science-machine-learning

image image image image image

到目前为止,我们讨论的工具都是真正的开源工具。你无需支付费用或购买任何额外的许可证。它们拥有活跃的社区,可以定期维护和发布更新。现在,我们将看一些在某些特定行业中通用的收费工具:

image image image

深度学习的通用框架

深度学习需要大量的计算资源,并且需要特殊的框架才能有效地利用这些资源。因此,你很可能需要GPU或TPU。让我们看看本节中用于深度学习的一些框架。

image

人工智能工具

AutoML的时代就在这里。如果还没有听说过这些工具,那么这是一个自我学习的好机会!作为数据科学家,你很可能会在不久的将来与他们合作。

image

列举一些最受欢迎的AutoML工具,包括AutoKeras,Google Cloud AutoML,IBM Watson,DataRobot,H20的无人驾驶AI和亚马逊的Lex。AutoML有望成为AI / ML社区中的下一个大事件。它旨在消除或减少技术性,以便商业领导者可以使用它来制定战略决策。这些工具将推动整个数据分析流程自动化!

上一篇 下一篇

猜你喜欢

热点阅读