七月笔记
hadoop 查看表的分布ip及空间大小:hadoop fsck /user/hive/warehouse/db_test.db/demo/ -files -blocks -locations -racks
了解核心业务的基本流程和核心指标
PMO是什么
没有shuffle的聚合:使用累加器
海豚调度:失败恢复,给子job设置超时时间,超时自动跳过
transformer算子应用:黑名单放进transfromer算子中,可以周期性更新
updatestatebykey 可以用redis代替
foreachRDD 在DStream的数据保存到redis时候使用