关于hadoop平台kafak,flume的搭配使用
2020-04-24 本文已影响0人
大道至简_6a43
思考:flume可以直接将数据写入到hdfs为何还要再加一个kafka 一层flume?
理由
1.数据的产生与HDFS处理数据的能力并不一定时时刻刻都相同,所以当数据的产生速率大于hdfs的处理能力的时候时就会造成数据堆积甚至是数据丢失,而kafka正好起到一个缓存数据的功能,可以缓存数据,避免数据数据丢失。
2.当新增加几个业务,或需要实时获取数据时,不可能说再配置几套flume,那样太复杂了,效率也不高,而kafka具有发布订阅的特点,恰好可以满足多条业务获取数据的需求。
3.针对第二层flume,因为flume做了将数据写到hdfs/hbase的优化,同时还可以得到Flume对HDFS/HBase优化带来的好处。