我爱编程

7.Spark数据读取与保存

2018-03-27  本文已影响1653人  泊牧

1. 常见数据源

2.文件格式

Spark支持的一些文件格式
2.1 文本文件
2.1.1 读取本地文件

注意:textFile()方法也可以读取文件夹,将目录作为参数,会将目录中的数据都读入到RDD中。

//在Scala中读取一个文件
val input = sc.textFile("file:///home/holden/repos/spark/README.md")
//在Java中读取一个文件
JavaRDD<String> input = sc.textFile("file:///home/holden/repos/spark/README.md")

Spark 支持读取给定目录中的所有文件,以及在输入路径中使用通配字符(如part-*.txt)。

//使用wholeTextFiles读取文件夹
val input = sc.wholeTextFiles("/user/admin/mrwinter/chapter05/txt/")
input.collect().foreach(println)
使用wholeTextFiles读取文件夹输出结果
使用textFile读取文件夹
val input = sc.textFile("/user/admin/mrwinter/chapter05/txt/")
input.collect().foreach(println)
使用textFile读取文件夹输出结果
//在Scala 中求每个文件的平均值
val input = sc.wholeTextFiles("file://home/holden/salesFiles")
val result = input.mapValues{y =>
  val nums = y.split(" ").map(x => x.toDouble)
  nums.sum / nums.size.toDouble
}
2.1.2 保存本地文件

saveAsTextFile() 方法接收一个路径,并将RDD 中的内容都输入到路径对应的文件中。Spark 将传入的路径作为目录对待,会在那个目录下输出多个文件。

//在Scala中将数据保存为文本文件
inputRDD.saveAsTextFile(outputFile)
2.2 JSON文件

测试json文件:

{"name":"王阳","age":32}
{"name":"李伟","age":22}
{"name":"刘涵","age":41}
{"name":"张丽","age":23}
{"name":"杨梅","age":34}

读取JSON文件
使用Jackson来解析JSON文件

import org.json4s.ShortTypeHints
import org.json4s.jackson.JsonMethods._
import org.json4s.jackson.Serialization

case class Person(name:String,age:Int)

implicit val formats = Serialization.formats(ShortTypeHints(List()))
val input = sc.textFile("/user/admin/mrwinter/chapter05/person.json")
val result = input.collect().map(x => parse(x).extract[Person])

//保存JSON文件用saveASTextFile(outputFile)即可
val save_json = sc.parallelize(result)
save_json.saveAsTextFile("/user/admin/mrwinter/chapter05/save_person.json")
运行结果
2.3 逗号分隔值与制表符分隔值

逗号分隔值(CSV)文件每行都有固定数目的字段,字段间用逗号隔开(在制表符分隔值文件,即TSV 文件中用制表符隔开)。

2.3.1 读取CSV

读取CSV/TSV 数据和读取JSON 数据相似,都需要先把文件当作普通文本文件来读取数据,再对数据进行处理。

//CSV文件
holden,panda
hotholden,notpanda
spark,bear
//在Scala 中使用textFile() 读取CSV
import java.io.StringReader
import au.com.bytecode.opencsv.CSVReader

val input = sc.textFile("/user/admin/mrwinter/chapter05/animal.csv")
val result = input.map{ line =>
  val reader = new CSVReader(new StringReader(line))
  reader.readNext()
}
result.collect().foreach(x => println(x(0), x(1)))
输出结果
//在Java 中使用textFile() 读取CSV
import au.com.bytecode.opencsv.CSVReader;
import Java.io.StringReader;

JavaRDD<String> csvFile1 = sc.textFile("/user/admin/mrwinter/chapter05/animal.csv");
JavaPairRDD<String[]> csvData = csvFile1.map(line ->
  new CSVReader(new StringReader(line)).readNext();
);

如果在字段中嵌有换行符,就需要完整读入每个文件,然后解析各段。如果每个文件都很大,读取和解析的过程可能会很不幸地成为性能瓶颈。

2.3.2 保存CSV文件
saveAsTextFile(outputFile)
上一篇 下一篇

猜你喜欢

热点阅读