R语言做生信数据-R语言-图表-决策-Linux-Python

教程:使用R进行可扩展数据分析

2018-12-23  本文已影响18人  Liam_ml

在最近在圣何塞举行的Strata会议上,Microsoft数据科学团队的几位成员提出了使用R进行可扩展数据分析的教程:单机到Spark集群。这些材料都可以在线获取,包括演示幻灯片动手实践的R脚本。您可以使用Data Science Virtual Machine for Linux来跟踪家中的资料,它提供了Spark和Microsoft R Server等所有必需的组件。(如果您还没有Azure帐户,则可以通过Azure免费试用获得200美元的赠送金额。)

本教程涵盖了大规模训练预测模型的许多不同技术,并将训练过的模型部署为生产环境中的预测引擎。您将使用的技术包括在Spark上运行的Microsoft R ServerSparkR包sparklyr包和H20(通过rsparkling包)。它还涉及一些非Spark方法,例如R 的bigmemoryff包(以及使用它们的各种其他包),以及使用foreach包进行粗粒度并行计算。您还将学习如何使用mrsdeploy包从这些训练模型创建预测引擎。

image.png

本教程还包括用于比较这些不同技术的性能脚本,用于训练预测模型:

image.png

并用于从训练模型生成预测:

image.png

(上述测试使用了4个工作节点和1个边缘节点,全部带有16个内核和112Gb RAM。)

可以在下面的链接中找到教程详细信息,包括幻灯片和脚本。

Strata + Hadoop World 2017,San Jose:使用R进行可扩展的数据分析:从单机到Hadoop Spark集群

上一篇下一篇

猜你喜欢

热点阅读