初识Flume

2020-08-15  本文已影响0人  谭英智

Flume是一个高可用,高可靠,分布式的海量日志采集聚合和传输系统,核心是把数据从数据源(source)收集,并把收集的数据发送到目的地(sink),为了保证传输成功,在送到目的地之前会先缓存(channel)数据,在真正到达目的地后,再删除缓存

overview

flume-overview

sources

sink

channel

当配置source为spooldir时,如果同一个文件被采集两次,flume会抛异常,并停止工作

load-balance

flume-lb

通过客户端agent1配置负载均衡策略,三台服务器会负载客户端的日志上传,如果有一台down机,流量由其他两台进行负载

failover/ha

flume-lb

通过客户端agent1配置高可用策略,会对三台服务器设置优先级,优先级最高的会take全部traffic,如果down机,会由次优先级的机器take全部traffic

拦截器

flume-difflog

用同一个客户端agent读取多个源,通过设置源的头部,可以在服务器agent中区分不同的log,并写入不同的目的地

异常

丢数据

exec tail -f/memory channel会造成数据丢失

数据重复

tailDir source/hdfs sink会存在数据重复,不会丢失数据

上一篇下一篇

猜你喜欢

热点阅读