教程：使用R进行可扩展数据分析

2018-12-23 本文已影响18人 Liam_ml

在最近在圣何塞举行的Strata会议上，Microsoft数据科学团队的几位成员提出了使用R进行可扩展数据分析的教程：单机到Spark集群。这些材料都可以在线获取，包括演示幻灯片和动手实践的R脚本。您可以使用Data Science Virtual Machine for Linux来跟踪家中的资料，它提供了Spark和Microsoft R Server等所有必需的组件。（如果您还没有Azure帐户，则可以通过Azure免费试用获得200美元的赠送金额。）

本教程涵盖了大规模训练预测模型的许多不同技术，并将训练过的模型部署为生产环境中的预测引擎。您将使用的技术包括在Spark上运行的Microsoft R Server，SparkR包，sparklyr包和H20（通过rsparkling包）。它还涉及一些非Spark方法，例如R 的bigmemory和ff包（以及使用它们的各种其他包），以及使用foreach包进行粗粒度并行计算。您还将学习如何使用mrsdeploy包从这些训练模型创建预测引擎。

image.png

本教程还包括用于比较这些不同技术的性能的脚本，用于训练预测模型：

image.png

并用于从训练模型生成预测：

image.png

（上述测试使用了4个工作节点和1个边缘节点，全部带有16个内核和112Gb RAM。）

可以在下面的链接中找到教程详细信息，包括幻灯片和脚本。