Spark Streaming

2019-11-03 本文已影响0人 clive0x

其中JobGenerator.generateJobs()有一段读源码时没看懂，receiverTracker.allocateBlocksToBatch(time)怎么和生成RDD对应？

后面才发现对应ReceiverInputDStream compute()方法，这样前后解释就通了。Spark代码比Hadoop/Hive代码难读多了，后两者用JAVA编写，遵循JAVA设计模式，具备良好的可读性。

JobScheduler有一个可优化参数，spark.streaming.concurrentJobs：１

流并发任务数可优化。