Data Science进阶我爱编程

写给小白的pySpark入门

2018-08-09  本文已影响12人  Macroholica

1. 创建键值对RDD ( Pair RDD)

RDD中可以包含任何类型的对象。其中,键值对是一种比较常见的RDD元素类型,在分组和聚合中经常会用到。

首先在本地创建一个word.txt,然后上传到hadoop目录中。

方法a:从文件中加载,来创建键值对RDD

pyspark --queue 队列名   [进入spark]

lines = sc.textFile("hadoop地址/word.txt") [加载文件到rdd中]

上一篇 下一篇

猜你喜欢

热点阅读