Flume(1)

2019-08-24  本文已影响0人  大飞飞_s8

1、Hadoop的宗旨是处理大型数据集,假设是数据已经存储在HDFS中,或者随时能够批量复制到HDFS,但是许多系统不符合此假设

2、flume的宗旨是向Hadoop批量导入基于事件的海量数据

3、flume由三部分组成,source sink channel构成

4、安装flume

5、flume运行

6、事务和可靠性

6.1、flume使用两个独立的事务分别负责从source到channel以及从channel到sink的事务传递

6.2、上一节,spooling directory source 为文件的每一行创建一个事务,一旦事务中所有事件全部传递到channel且提交成功,那么source将该文件标记为完成,channel到sink类似

6.3、本例中channel为file channel,具有持久性,事件被写入channel即使重启,数据不会丢失,flume还提供有memory channel,重启事件会丢失,优势在于吞吐量高

6.3、每个事件到达sink至少一次,at least once,有可能重复到达,不论source还是sink,都有可能重复

7、flume为了提高效率,尽量以事务为单位来批量处理事件,每个事务只需要写一次本地磁盘和调用一次fsync

8、批量处理,例如spooling directory source 以100行作为一个批次读取,可以通过batchsize设置

9、hadoop sink

10、分区和拦截器

10.1、一个flume事件被写入哪个分区是由事件的header的timestamp决定,默认情况下header中并没有timestamp,但是可以通过flume拦截器来添加,拦截器能够对事件流中的事件进行修改或者删除


此回话周郑交战

宋国政变第三年,衰退的周政府又受到致命一击。

郑国国君姬掘突(郑武公)是骊山之役殉难再想姬友的位子,继承了父亲封国的国君,又继承了宰相位置,日夜不停东奔西跑,扩大领土

姬掘突死后,儿子姬寐生,作风更加恶劣,老国王姬宜臼勉强能忍,但是他的孙儿姬林(周桓王)继位,年轻气盛,解除了姬寐生的中央职务,姬寐生立即报复姬林,割走了所有边界麦田的小麦。郑国与周王的大战就这样开始了。

周王朝也走向了没落

上一篇下一篇

猜你喜欢

热点阅读