独立开发者小记

Spark Streaming实时流处理-1.初识实时流处理

2018-09-09  本文已影响0人  Peacenloves

目录

  1. 业务现状分析
  2. 实时流处理产生背景
  3. 实时流处理概述
  4. 离线计算与实时计算对比
  5. 实时流处理框架对比
  6. 实时流处理架构与技术选型
  7. 实时流处理在企业中的应用

1. 业务现状分析

需求:统计主站每个(指定)课程访问的客户端、地域信息分布。

实现步骤:

项目架构:基于Hadoop的实现方案

问题:

如何解决呢?使用实时流处理。

2. 实时流处理产生背景

3. 实时流处理概述

4. 离线计算与实时计算对比

  1. 数据来源
    • 离线:HDFS历史数据,数据量比较大。
    • 实时:消息队列(Kafka),实时新增/修改记录实时过来的某一笔数据。
  2. 处理过程
    • 离线:Map + Reduce
    • 实时:Spark(DStream/SS)
  3. 处理速度
    • 离线:速度慢
    • 实时:快速拿到结果
  4. 进程角度
    • 离线:启动 + 销毁进程
    • 实时: 7 * 24小时进行统计,线程不停止

5. 实时流处理框架对比

6. 实时流处理架构与技术选型

spark-streaming1.png

7. 实时流处理在企业中的应用

上一篇下一篇

猜你喜欢

热点阅读