Spark Streaming
2019-11-03 本文已影响0人
clive0x
其中JobGenerator.generateJobs()有一段读源码时没看懂,receiverTracker.allocateBlocksToBatch(time)怎么和生成RDD对应?
后面才发现对应ReceiverInputDStream compute()方法,这样前后解释就通了。Spark代码比Hadoop/Hive代码难读多了,后两者用JAVA编写,遵循JAVA设计模式,具备良好的可读性。
JobScheduler有一个可优化参数,spark.streaming.concurrentJobs:1
流并发任务数可优化。