Spark数据处理

2020-03-23 本文已影响0人 inspiredhss

image.png

image.png

image.png

image.png

image.png

Pandas数据载入内存统计很难
分发聚合 Hadoop 分布式存储hdfs
数据可持续性大数据存储 MapReduce Key Map任务分发 shuffle根据Key排序 Reduce聚合
Spark 比Hadoop提升10倍迭代100倍
Spark核心 RDD 数据存储 DataFrame 海量数据的巨型 Sql 数据分析基于表或Sql RDD 数据处理操作分布式存储在多个机器 RDD DataFrame
SparkJDKJVM

image.png

image.png

image.png

RDD不同节点数据集可持续化到内存高效每个节点的内存用起来内存中完成Groupby
分割成多个Partition 在executor内存中

image.png

任务取名字 AppName；local操作的node所在服务器; 使用配置创建SparkContext；SC创建RDD 序列数据序列化分块分发 parallelize([])
getNumPartitions
rdd是对象在很多节点上分布式RDD 可以用它的函数来

image.png

collect很危险巨大数据取到本地

image.png

image.png
文本在本地在hdfs
file：//+绝对路径 hdfs: 直接hdfs路径
sc.textFile 序列化RDD
读取单个文本每一行为RDD一个元素

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

重新组织变换进行优化减少不必要的结果存储通信 Action触发

image.png
服务器driver内存容易被占满

take取RDD中前几个item take按照原有顺序 top按照排序
Action之后是本地内存的序列除非序列化为RDD 不然不能做变换

image.png

image.png

image.png

reduce是action
count也是action
计算出发多次 rdd.cache 会将action的数据缓存避免重复计算置于内存中

image.png
成对的RDD 相同Key的Item聚合 k-v RDD kv字典AsMap

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

RDD 节点内存；
DF，SQL结构化

image.png

sparkSession 对话任务

image.png

image.png

image.png

image.png

RDD的IO转换稍慢

image.png

存在分布器上 .show类

image.png

sql的结果是dataFrame

image.png

文件-表 SC RDD ->DF

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

image.png

上一篇下一篇

猜你喜欢

热点阅读