Spark-pyspark

2018-06-30  本文已影响0人  edwin1993

pyspark介绍

pyspark是Spark官方提供的API接口,同时pyspark也是Spark中的一个程序。
在terminal中输入pyspark指令,可以打开python的shell,同时其中默认初始化了SparkConf和SparkContext

pyspark中有很多的功能组件,以pyspark对sql的功能组件举例:

通过spark可以直接访问到HIVE中的数据并进行操作
需要进行spark上下文的设置。

>>> from pyspark import SparkConf,SparkContext
>>> from pyspark.sql import HiveContext
>>> 
>>> sc
<pyspark.context.SparkContext object at 0x7fcaa21008d0>
>>> sqlContext = HiveContext(sc)
>>> my_edwintestFile = sqlContext.sql("select * from edwin_test")
>>> my_edwintestFile
DataFrame[tid: int, tname: string, age: int, gender: string]
>>> my_edwintestFile.show()
+---+-----+---+------+
|tid|tname|age|gender|
+---+-----+---+------+
|  1|  Tom| 29|     F|
|  2| Tom2| 22|     F|
|  3| Tom3| 23|     F|
|  4| Tom4| 25|     F|
|  5| Tom5| 27|     F|
|  1|  Tom| 29|     M|
|  2| Tom2| 22|     M|
|  3| Tom3| 23|     M|
|  4| Tom4| 25|     M|
|  5| Tom5| 27|     M|
+---+-----+---+------+

如果需要整理为*.py文件进行提交,那么sc将不会自动创建,需要整理为:

from pyspark import SparkContext
from pyspark.sql import HiveContext
sc = SparkContext('local')
sqlContext = HiveContext(sc)
my_edwintestFile = sqlContext.sql("select * from edwin_test")
my_edwintestFile.show()

运行结果一样。

上一篇下一篇

猜你喜欢

热点阅读