Spark Streaming

2019-11-03  本文已影响0人  clive0x

https://github.com/jaceklaskowski/spark-streaming-notebook/blob/master/spark-streaming-jobscheduler.adoc

其中JobGenerator.generateJobs()有一段读源码时没看懂,receiverTracker.allocateBlocksToBatch(time)怎么和生成RDD对应?

后面才发现对应ReceiverInputDStream compute()方法,这样前后解释就通了。Spark代码比Hadoop/Hive代码难读多了,后两者用JAVA编写,遵循JAVA设计模式,具备良好的可读性。

JobScheduler有一个可优化参数,spark.streaming.concurrentJobs:1

流并发任务数可优化。

上一篇下一篇

猜你喜欢

热点阅读