apache flume

Apache Flume

2019-01-31  本文已影响0人  spraysss

Flume是一种分布式的、可靠的、可用的服务,用于有效地收集、聚合和移动大量日志数据,它有如下特点:

概述

Apache Flume是一个分布式的、可靠的和可用的系统,用于有效地收集、聚合大量日志数据并将它们从许多不同的源移动一个中央的集中存储中

Apache Flume的使用不仅限于日志数据聚合。因为数据源是可定制的,所以Flume可以用于传输大量事件数据,包括但不限于网络流量数据、社交媒体生成的数据、电子邮件消息以及几乎所有可能的数据源

系统要求

数据模型

从上面的架构图可以看到 Source ,Channel,Sink 都运行与Agent中,并且它们是异步运行的
类比于网络,Flume agent就像是一个event 路由器

可靠性

event暂存于agent的通道之中。然后将传递到流中的下一个agent或最终存储库(如HDFS),只有将事件存储在下一个代理的通道或最终存储库之后才会将event从当前channel中删除,这就是Flume中的单跳消息传递语义如何提供流的端到端可靠性.

Flume使用事务方法来保证event的可靠交付。
在多跳流的情况下,上一跳的接收器和下一跳的源都有自己的事务在运行,以确保数据安全地存储在下一跳的通道中

可恢复性

channel可以基于本地文件系统的的持久性实现恢复

上一篇下一篇

猜你喜欢

热点阅读