Storm 入门
2019-03-31 本文已影响0人
cjxll
storm 是什么
apache顶级项目,免费开源分布式实时流处理计算系统,能实现高频数据和大规模数据的实时处理
storm 官网
storm github
Storm vs Hadoop
- 数据源/处理领域:实时 vs 离线
- 处理过程: Spout Bolt vs Map Reduce
- 进程是否结束:否 vs 是
- 处理速度:快 vs 慢
- 使用场景
Storm核心概念
- Topologies: 计算拓扑由spout和bolt组成,将整个流程串起来
- Streams: 消息流(数据流/水流),没有边界的tuple构成
- Tuple: 消息/数据,传递的基本单元
- Spouts: 消息流的源头(产生数据/水的东西)
- Blots:消息处理单元(处理数据/水的东西 (水壶),可以做过滤、聚合、查询、写数据库操作