Spark 应用sparkSpark机器学习

Spark机器学习库(MLlib)开发指南(1)

2017-08-27  本文已影响233人  xcrossed
机器学习库(MLlib)开发指南(1)

本文是翻译自官方文档,如有错误,欢迎指正。
原文 https://spark.apache.org/docs/latest/ml-guide.html

MLlib是spark的机器学习库,它的目标是使得实战机器学习变得易于扩展。在较高层次上,它提供了如下的工具

声明:DataFrame-based api是主要api
MLlib RDD-based API 现在处于维护状态
在 Spark 2.0,在 spark.MLlib这个包下的 RDD-based APIs 已经进入维护状态。现在主要的 api 是位于 spark.ml 这从此包下面的 DataFrame-based API

这个声明的说明

为什么 MLlib要切换到DataFrame-based API

什么是Spark ML

MLlib被弃用

依赖
MLlib使用线性代数包Breeze,它依赖数值处理优化包netlib-java。如果在运行时本地库不可用,你将看到一个警告消息,一个纯JVM实现将作为替换使用。
由于运行时专有二进制文件的许可问题,我们默认不包括netlib-java的代理。
要将netlib-java / Breeze配置为使用系统优化的二进制文件,请将com.github.fommil.netlib:all:1.1.2(或构建Spark with -Pnetlib-lgpl)作为项目的依赖项,并读取netlib-java文档
为您的平台的额外的安装说明。

要在Python中使用MLlib,您将需要NumPy 1.4或更高版本。

2.2版本中的亮点
下面的列表突出显示了在2.2版本的Spark中添加到MLlib的一些新功能和增强功能:

迁移指导
MLlib正在积极发展。标记为Experimental / DeveloperApi的API可能会在将来的版本中更改,下面的迁移指南将解释发行版之间的所有更改。

行为变化

上一篇 下一篇

猜你喜欢

热点阅读