spark sql DataFrame&DataSet

2019-10-15 本文已影响0人邵红晓

如图

RDD (Spark1.0) —> Dataframe(Spark1.3) —> Dataset(Spark1.6)
如果同样的数据都给到这三个数据结构，他们分别计算之后，都会给出相同的结果。不同是的他们的执行效率和执行方式。在后期的Spark版本中，DataSet会逐步取代RDD和DataFrame成为唯一的API接口。

RDD
优势：API 非常灵活，懒执行，不可变的，支持la'mbda架构的并行数据集
劣势：性能限制，它是一个JVM驻内存对象，这也就决定了存在GC的限制和数据增加时Java序列化成本的升高
Dataframe
优势：
1、为数据提供了Schema视图，可以把他当成数据库中的一张表，
2、定制化内存管理，数据可以以二进制形式存储在非堆内存，节省大量空间，并且不受GC限制

image.png

3、优化执行计划，将条件过滤下推到数据源
4、支持JIT优化 java 编译器即时优化
劣势：
1、弱类型，只知道字段，不知道类型，在编译期缺少类型安全检查，导致运行时出错
2、sort shuffle 数据没有序列化
DataSet
优势：
1、强类型，具有安全检查，并且具备Dataframe的全部优势
2、DataSet支持编解码器，当需要访问非堆上的数据时可以避免反序列化整个对象，提高了效率。

DataFrame
testDF.foreach{
  line =>
    val col1=line.getAs[String]("col1")
    val col2=line.getAs[String]("col2")
}
每一列的值没法直接访问

DataSet
case class Coltest(col1:String,col2:Int)extends Serializable //定义字段名和类型
/**
 rdd
 ("a", 1)
 ("b", 1)
 ("a", 1)
**/
val test: Dataset[Coltest]=rdd.map{line=>
      Coltest(line._1,line._2)
    }.toDS
test.map{
      line=>
        println(line.col1)
        println(line.col2)
    
}
Dataset在需要访问列中的某个字段时是非常方便的

image.png

JIT编译器：
将每个Java指令都转译成对等的微处理器指令，并根据转译后的指令先后次序依序执行，由于一个Java指令可能被转译成十几或数十几个对等的微处理器指令，这种模式执行的速度相当缓慢。　针对这个问题，业界首先开发出JIT（just in time）编译器。当Java执行runtime环境时，每遇到一个新的类别（class：类别是Java程式中的功能群组），类别是Java程式中的功能群组－JIT编译器在此时就会针对这个类别进行编译（compile）作业。经过编译后的程式，被优化成相当精简的原生型指令码（native code），这种程式的执行速度相当快。花费少许的编译时间来节省稍后相当长的执行时间，JIT这种设计的确增加不少效率，但是它并未达到最顶尖的效能，因为某些极少执行到的Java指令在编译时所额外花费的时间可能比转译器在执行时的时间还长，针对这些指令而言，整体花费的时间并没有减少。　基于对JIT的经验，业界发展出动态编译器（dynamic compiler），动态编译器仅针对较常被执行的程式码进行编译，其余部分仍使用转译程式来执行。也就是说，动态编译器会研判是否要编译每个类别。动态编译器拥有两项利器：一是转译器，另一则是JIT，它透过智慧机制针对每个类别进行分析，然后决定使用这两种利器的哪一种来达到最佳化的效果。动态编译器针对程式的特性或者是让程式执行几个循环，再根据结果决定是否编译这段程式码。这个决定不见得绝对正确，但从统计数字来看，这个判断的机制正确的机会相当高。事实上，动态编译器会根据「历史资料」做决策，所以程式执行的时间愈长，判断正确的机率就愈高。以整个结果来看，动态编译器产生的程式码执行的速度超越以前的JIT技术，平均速度可提高至50%。

spark sql DataFrame&DataSet

如图

猜你喜欢

热点阅读