AI,NN, ML, Deep Learning &BIG DATA

PySpark介绍

2018-08-29  本文已影响0人  azim

当要分析的资料大到一台电脑没办法处理(可能是档案过大没办法载入单台电脑的记忆体、或是单台运算时间太长)的时候,通常有两种解决方法。1.购买一台昂贵的超级电脑(96核CPU, 1TB Memory…) 2.购买多台较便宜的一般电脑来分工处理原本的工作。

Spark官方网站提到Spark的好处有

速度快

Spark比起Hadoop在运算上快了许多,主要是把资料暂存在记忆体以及把资料处理的部份优化(ex:减少shuffle)

容易使用

Spark提供Scala,Python,R,Java的API介面,让开发者可以利用自己擅长的开发语言来开发。主流上是使用Scala, Python这两种

广泛应用

可以在Spark上面使用SQL、即时串流(Streaming)、Spark的机器学习套件(MLlib)、图论(计算图形中任两点的最短路径)的套件

下图为Spark python语言API工具PySpark简要学习指南:
上一篇下一篇

猜你喜欢

热点阅读