离线计算组件篇-Spark-文件读写

2022-12-06  本文已影响0人  CoderInsight

文件数据读写总结

  • 对于RDD而言,每一次转换操作都会产生不同的RDD,供给下一个“转换”使用。
  • 转换得到的RDD是惰性求值的,也就是说,整个转换过程只是记录了转换的轨迹,并不会发生真正的计算,只有遇到行动操作时,才会发生真正的计算,开始从血缘关系源头开始,进行物理的转换操作。
转换 含义
map(func) 返回一个新的RDD,该RDD由每一个输入元素经过func函数转换后组成
filter(func) 返回一个新的RDD,该RDD由经过func函数(在func函数中添加_.contains()来添加过滤条件)计算后返回值为true的输入元素组成
flatMap(func) 类似于map,但是每一个输入元素可以被映射为0或多个输出元素(所以func应该返回一个序列,而不是单一元素)
mapPartitions(func) 类似于map,但独立地在RDD的每一个分片上运行,因此在类型为T的RDD上运行时,func的函数类型必须是Iterator[T] => Iterator[U]
mapPartitionsWithIndex(func) 类似于mapPartitions,但func带有一个整数参数表示分片的索引值,因此在类型为T的RDD上运行时,func的函数类型必须是(Int, Interator[T]) => Iterator[U]
union(otherDataset) 对源RDD和参数RDD求并集后返回一个新的RDD(不去重
intersection(otherDataset) 对源RDD和参数RDD求交集后返回一个新的RDD
distinct([numTasks])) 对源RDD进行去重后返回一个新的RDD
groupByKey([numTasks]) 在一个(K,V)的RDD上调用,返回一个(K, Iterator[V])的RDD
reduceByKey(func, [numTasks]) 在一个(K,V)的RDD上调用,返回一个(K,V)的RDD,使用指定的reduce函数,将相同key的值聚合到一起,与groupByKey类似,reduce任务的个数可以通过第二个可选的参数来设置
sortByKey([ascending], [numTasks]) 在一个(K,V)的RDD上调用,K必须实现Ordered接口,返回一个按照key进行排序的(K,V)的RDD
sortBy(func,[ascending], [numTasks]) 与sortByKey类似,但是更灵活
join(otherDataset, [numTasks]) 在类型为(K,V)和(K,W)的RDD上调用,返回一个相同key对应的所有元素对在一起的(K,(V,W))的RDD
cogroup(otherDataset, [numTasks]) 在类型为(K,V)和(K,W)的RDD上调用,返回一个(K,(Iterable<V>,Iterable<W>))类型的RDD
coalesce(numPartitions) 减少 RDD 的分区数到指定值。
repartition(numPartitions) 重新给 RDD 分区
repartitionAndSortWithinPartitions(partitioner) 重新给 RDD 分区,并且每个分区内以记录的 key 排序
1),本地文件系统的数据读写
// 因为Spark采用了惰性机制,在执行转换操作的时候,即使输入了错误的语句,spark-shell也不会马上报错(假设word123.txt不存在)
scala>val textFile = sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt")
// 执行行动操作,查看数据集的第一个元素,才会真正的执行。
textFile.first()

scala> val  textFile = sc.textFile("file:///usr/local/spark/mycode/wordcount/word.txt")
// 写入文件系统的指定目录中
scala> textFile.saveAsTextFile("file:///usr/local/spark/mycode/wordcount/writeback")
// 查看文件
cd /usr/local/spark/mycode/wordcount/writeback/
ls
// 文件结果
part-r-00000
_SUCCESS

2),分布式文件向HDFS的数据读写
// 调用读取文件的方法
scala> val  textFile = sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")
// 查看数据的第一个数据
scala> textFile.first()
// 以下三种方式是等价的,推荐使用第二种,因为已经在hdfs的配置文件中指定了连接信息
scala> val textFile = sc.textFile("hdfs://localhost:9000/user/hadoop/word.txt")
scala> val textFile = sc.textFile("/user/hadoop/word.txt")
scala> val textFile = sc.textFile("word.txt") // 只是在当前登录用户的家目录下


// 从HDFS中读取文件
scala> val  textFile = sc.textFile("hdfs://localhost:9000/mycode/wordcount/word.txt")
// 写入HDFS文件系统的指定目录中
// 方法1:
scala> textFile.saveAsTextFile("hdfs://localhost:9000/user/hadoop/writeback")
// 方法2:
scala> textFile.saveAsTextFile("/user/hadoop/writeback")

3),JSON文件的数据读写

JSON(JavaScriptObject Notation) 是一种轻量级的数据交换格式

Spark提供了一个JSON样例数据文件,存放在“/usr/local/spark/examples/src/main/resources/people.json”中;启动usr/local/spark是spark的安装目录

{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19} 
scala> val  jsonStr = sc.textFile("file:///root/wordCount/people.json")
scala> jsonStr.foreach(println)
{"name":"Michael"}
{"name":"Andy", "age":30}
{"name":"Justin", "age":19}
import org.apache.spark.SparkContext
import org.apache.spark.SparkContext._
import org.apache.spark.SparkConf
import scala.util.parsing.json.JSON
object JSONRead {
    def main(args: Array[String]) {
        val inputFile = "file:///usr/local/spark/examples/src/main/resources/people.json"
        val conf = new SparkConf().setAppName("JSONRead")
        val sc = new SparkContext(conf)
        // 加载出来的数据是一个RDD
        val jsonStrs = sc.textFile(inputFile)
        // 解析之后,得到的是Option 类型。有值的时候是Some类型;没有值的时候是None类型
        val result = jsonStrs.map(s => JSON.parseFull(s))
        /*
        1.依次匹配每一个元素,判读那类型是不是Some类型
        */
        result.foreach( {r => r match {
                        case Some(map: Map[String, Any]) => println(map)
                        case None => println("Parsing failed")
                        case other => println("Unknown data structure: " + other)
                }
        }
        )
    }
}

上一篇 下一篇

猜你喜欢

热点阅读