spark的wordcount

2019-05-11  本文已影响0人  不将就_215a

import re
rdd = sc.textFile("xx.txt")
resultRdd = rdd.flatMap(lambda line:re.split(" |,|[|]|#|'|:",line)).map(lambda x:(x,1)).reduceByKey(lambda x,y:x+y)

resultColl = resultRdd.collect()
for line in resultColl:
print(line)

或者
resultRdd = rdd.flatMap(lambda line:re.split(" |,|[|]|#|'|:",line)).countByValue()
不过得到的是一个dict

上一篇 下一篇

猜你喜欢

热点阅读