面向零编程基础人员 | 最全数据科学和机器学习工具清单

2018-06-06 本文已影响28人 DataHunter小数

编程是数据科学的重要组成部分，理解编程逻辑、循环和函数的开发者也更容易成为数据科学家。但是，对于那些未在大学时期学习过软件开发，或接触过编程语言的人们来说，就真的没办法涉足这一领域？

近些年，随着数据科学的蓬勃发展，许多公司（也包括很多创业公司）都推出了基于GUI（图形用户界面）的数据科学工具。即便不具备任何编程经验或对算法知之甚少，你都可以借助这些工具来构建高质量的机器学习模型，进而成为一名合格的数据科学家。本文我们总结了目前最为简单易用的数据科学工具清单，也希望你能尽早成为这一领域的专家。

RapidMiner

RapidMiner（RM）最初源自YALE（Yet Another Learning Environment）项目，2007年正式更名为RapidMiner。RM涵盖了预测建模的整个生命周期，包括数据准备、数据建模、验证和部署。借助RM，你可以在没有一行代码的情况下运行各种各样的机器算法，同时，RM也支持R和Python脚本。

目前，RM被用于各行各业，包括汽车、银行、保险、生命科学、制造业、石油和天然气、零售、电信和公用事业等。2014年，RM正式进入中国预测性分析市场，主要为中国用户提供预测性分析解决方案、技术支持、培训及认证服务。

RM产品线包括：

RapidMiner Studio：一款可用于数据准备，可视化分析和统计建模的客户端软件。

RapidMiner Server：适用于企业级环境，具有中央存储库功能，可以轻松进行团队协同，项目管理和模型部署，与RapidMiner Studio无缝集成。

RapidMiner Radoop：可以实现以Hadoop为中心的大数据分析功能。

RapidMiner Cloud：基于云的存储库，可以轻松实现各种设备之间信息共享。

RapidMiner中文官网：

www.rapidminerchina.com/zh_CN/

DataRobot

DataRobot（DR）是一款高度自动化的机器学习平台，由全球最好的Kagglers创建，包括Jeremy Achin，Thoman DeGodoy和Owen Zhang。在DR官网上我们可以看到这样一句话，“数据科学需要数学、统计学、编程技能和商业认知。借助DataRobot，你可以轻松获得数据和业务见解，其余部分由我们负责。”

DataRobot具备如下特性：

模型优化

通过采用文本挖掘，变量类型检测、插补、缩放、转换等手段自动检测最佳数据预处理和特征工程。

根据错误度量和验证集合分数自动选择超参数。

并行处理

计算被分为数千台多核服务器。

使用分布式算法扩展到大型数据集。

部署

只需点击几下即可完成部署（无需编写任何代码）

对于软件工程师

Python SDK和API可用于将模型快速集成到工具和软件中。

官方网站：www.datarobot.com

BigML

BigML平台旨在帮助客户创建，快速实验，全面自动化并管理机器学习工作流程。BigML提供了很好的可视化功能，并具备求解分类、回归、聚类、异常检测等算法。该产品可以按照月、季度和年度进行订阅，同时也提供免费版本（免费版本的数据集限制为16 MB）。

BigML的平台，私用部署和丰富的工具集将继续帮助我们的客户创建，快速实验，全面自动化并管理机器学习工作流程，以提供同类中最佳的智能应用程序。基于图形用户界面，BigML提供了以下功能：

来源：使用各种信息来源

数据集：使用定义的源创建数据集

模型：制作预测模型

预测：基于模型生成预测

集成：创建各种模型的集成

评估：针对验证集的非常模型

官方网站：www.bigml.com

Google Cloud AutoML

Cloud AutoML是Google机器学习套件产品的一部分，可以帮助非ML专业人员构建高质量的机器学习模型。Cloud AutoML使得训练图像识别模型变得更加简单，用户只需要通过拖拽操作就可以上传图像、训练模型和部署模型。

官方网站：cloud.google.com/automl/

Paxata

Paxata并不是一款机器学习或建模工具，其主要用于数据清洗和数据准备。Paxata提供了可视化指导，用户可以轻松地将数据汇集到一起，并进行查询、修复、清洗、共享等操作。与文中其他工具一样，使用Paxata无需具备编码或脚本能力。目前，Praxata已经开始涉足金融、消费品和互联网领域。如果你的工作包含数据清理，那么Paxata是一个很好的工具。

Paxata平台遵循以下流程：

添加数据：可以广泛地获取数据源。

探索：使用强大的可视化效果进行数据探索。

清理+更改：使用插补等步骤执行数据清理，使用NLP对相似值进行规范化，检测重复项。

形状：制作数据枢纽并执行分组和聚合。

分享+治理：允许在强大的身份验证和授权的情况下进行分享和协作。

组合：通过专利技术SmartFusion，Paxata允许将数据帧与1次点击组合在一起，并自动检测出最佳组合，同时多个数据集可以组合成一个AnswerSet。

BI工具：可以在常用的BI工具中轻松实现数据可视化，还可以实现数据预处理与可视化之间的迭代。

官方网站：www.paxata.com

Trifacta

Trifacta是另外一家专注于数据准备的创业公司，Trifacta提供了非常直观的GUI来进行数据处理操作。对于每一列，Trifacta都会自动推荐一些可以通过单击进行选择的转换，也可以使用一些预定义的函数对数据执行各种转换，这些函数可以在界面中轻松调用。Trifacta主要用于金融、生命科学和电信行业。目前该产品提供了三个版本：

Wrangler：一款免费的独立软件，允许处理最大100MB的数据。

Wrangler Pro：上述的升级版本。允许单用户和多用户，数据量限制为40GB。

Wrangler Enterprise：Trifacta的最高级产品。其对处理的数据量没有任何限制，并允许无限制的用户，非常适合大型组织。

Trifacta平台遵循以下使用步骤：

发现：快速了解数据和分布情况。

结构：为数据分配合适的形状和变量类型，并解决异常。

清理：进行插补、文本标准化等过程，这些都是使数据模型准备就绪所必需的。

充实：这一步有助于提高分析质量，通过添加更多来源的数据或对现有数据执行一些功能来完成。

验证：对数据执行最终检测。

发布：将数据导出以供进一步使用。

官方网站：www.trifacta.com

MLBase

MLBase是加州大学伯克利分校的AMP（算法机器人）实验室开发的一个开源项目。其背后的核心思想是为机器学习应用于大规模问题提供一个简单的解决方案。

MLBase包含3个产品：

MLlib：Apache Spark中的核心分布式ML库。它最初是作为MLBase项目的一部分开发的，但现在Spark社区也在支持它。

MLI：用于特征提取和算法开发的实验性API，它引入了高级ML抽象编程。

ML优化器：旨在自动执行ML管道构建任务。优化器通过包含在MLI和MLlib中的特征提取器和ML算法来解决搜索问题。

官方网站：mlbase.org

Auto-WEKA

Auto-WEKA是一个用Java编写的数据挖掘软件，由新西兰怀卡托大学的机器学习小组开发。这是一个基于GUI的工具，对数据科学初学者非常有用。最重要的是，Auto-WEKA是完全开源的，开发者已经提供了详细的使用教程和论文帮助你更好的使用它。目前Auto-WEKA主要用于教育和学术研究。

官方网站：

www.cs.ubc.ca/labs/beta/Projects/autoweka/

Driverless AI

Driverless AI是由开源机器学习平台h2o.ai推出的最新产品，这一工具可以帮助非技术人员准备数据，审校参数，确定最优算法，进而用机器学习来解决专门的企业问题。该产品旨在降低数据科学在企业环境下运行的门槛。

这些是Driverless AI的一些令人振奋的功能：

多GPU对XGBOOST，GLM和K-Means等的支持，即使对于大型复杂的数据集也能提供出色的训练速度。

自动特征工程，用于调整和综合各种模型以产生高度准确的预测。

在训练过程中，用于解释模型以及实时特征重要性的面板。

官方网站：www.h2o.ai/driverless-ai/

Microsoft Azure ML Studio

Azure ML Studio是一个简单而强大的基于浏览器的ML平台，其拥有可视化的拖放环境，不需要编码。微软已经为新手准备了非常全面的教程和应用示例，以帮助用户快速掌握该工具。Azure ML Studio的使用步骤非常简单：

导入数据集

如有必要，执行数据清理和其他预处理步骤

将数据分解为训练和测试集

内置的ML算法来训练模型

评分你的模型，并得到预测结果

官方网站：studio.azureml.net

MLJar

同Azure ML Studio一样，MLJar也是一个基于浏览器的平台，用于快速构建和部署机器学习模型。MLJar的操作界面非常直观，并允许用户并行训练模型。MLJar具有内置的超参数搜索功能，可以更轻松地部署模型。同时，MLJar提供了与NVIDIA的CUDA、Python以及TensorFlow等的集成。

MLJar的主要操作步骤：

上传数据集

训练和调整机器学习算法，并选择最佳算法

使用最佳模型进行预测并分享您的结果

目前该工具采取订阅付费模式，同时也提供免费版本（0.25GB的数据集限制）

官方网站：mljar.com

Amazon Lex

Amazon Lex提供了一个易于使用的控制台，可以帮助用户在几分钟内构建属于自己的聊天机器人。用户可以使用Lex在自己的应用程序或网站中构建会话界面。你需要做的就是提供一些短语，剩下的都可以交给Amazon Lex！其构建了一个完整的自然语言模型，使用该模型，客户可以使用语音和文本与应用程序进行交互。

Amazon Lex还与亚马逊网络服务（AWS）平台进行了集成，Lex是一项完全托管服务，随着用户参与度的增加，您也无需担心配置硬件和管理基础架构。

官方网站：aws.amazon.com/cn/lex/

IBM Watson Studio

如何从这个清单中排除IBM？这个世界上最知名的IT品牌之一。IBM Watson Studio为构建和部署机器学习和深度学习模型提供了一个出色的平台。借助Watson Studio，你可以轻松完成数据准备工作、使用RStudio等熟悉的开源工具、访问最流行的库、训练深度神经网络等。对于机器学习的入门者来说，IBM提供了一系列的教程视频帮助你入门Watson Studio。

官方网站：

www.ibm.com/cloud/watson-studio

更多工具

KNIME - 该工具非常适合训练机器学习模型，而且GUI体验很棒，更重要的是KNIME完全免费。

FeatureLab - 它允许使用GUI进行简单的预测建模和部署。该产品最大的卖点之一是自动特征工程。

MarketSwitch - 该工具更侧重于优化，而非预测分析。

Logical Glue - 另一种基于GUI的机器学习平台，主要用于从原始数据处理到部署。

面向零编程基础人员 | 最全数据科学和机器学习工具清单

猜你喜欢

热点阅读