Flume(1)

2019-08-24 本文已影响0人大飞飞_s8

1、Hadoop的宗旨是处理大型数据集，假设是数据已经存储在HDFS中，或者随时能够批量复制到HDFS，但是许多系统不符合此假设

2、flume的宗旨是向Hadoop批量导入基于事件的海量数据

3、flume由三部分组成，source sink channel构成

4、安装flume

5、flume运行

6、事务和可靠性

6.1、flume使用两个独立的事务分别负责从source到channel以及从channel到sink的事务传递

6.2、上一节，spooling directory source 为文件的每一行创建一个事务，一旦事务中所有事件全部传递到channel且提交成功，那么source将该文件标记为完成，channel到sink类似

6.3、本例中channel为file channel，具有持久性，事件被写入channel即使重启，数据不会丢失，flume还提供有memory channel，重启事件会丢失，优势在于吞吐量高

6.3、每个事件到达sink至少一次，at least once，有可能重复到达，不论source还是sink，都有可能重复

7、flume为了提高效率，尽量以事务为单位来批量处理事件，每个事务只需要写一次本地磁盘和调用一次fsync

8、批量处理，例如spooling directory source 以100行作为一个批次读取，可以通过batchsize设置

9、hadoop sink

10、分区和拦截器

10.1、一个flume事件被写入哪个分区是由事件的header的timestamp决定，默认情况下header中并没有timestamp,但是可以通过flume拦截器来添加，拦截器能够对事件流中的事件进行修改或者删除

此回话周郑交战

宋国政变第三年，衰退的周政府又受到致命一击。

郑国国君姬掘突（郑武公）是骊山之役殉难再想姬友的位子，继承了父亲封国的国君，又继承了宰相位置，日夜不停东奔西跑，扩大领土

姬掘突死后，儿子姬寐生，作风更加恶劣，老国王姬宜臼勉强能忍，但是他的孙儿姬林（周桓王）继位，年轻气盛，解除了姬寐生的中央职务，姬寐生立即报复姬林，割走了所有边界麦田的小麦。郑国与周王的大战就这样开始了。

周王朝也走向了没落