Flume(1)
1、Hadoop的宗旨是处理大型数据集,假设是数据已经存储在HDFS中,或者随时能够批量复制到HDFS,但是许多系统不符合此假设
2、flume的宗旨是向Hadoop批量导入基于事件的海量数据
3、flume由三部分组成,source sink channel构成
4、安装flume
5、flume运行
6、事务和可靠性
6.1、flume使用两个独立的事务分别负责从source到channel以及从channel到sink的事务传递
6.2、上一节,spooling directory source 为文件的每一行创建一个事务,一旦事务中所有事件全部传递到channel且提交成功,那么source将该文件标记为完成,channel到sink类似
6.3、本例中channel为file channel,具有持久性,事件被写入channel即使重启,数据不会丢失,flume还提供有memory channel,重启事件会丢失,优势在于吞吐量高
6.3、每个事件到达sink至少一次,at least once,有可能重复到达,不论source还是sink,都有可能重复
7、flume为了提高效率,尽量以事务为单位来批量处理事件,每个事务只需要写一次本地磁盘和调用一次fsync
8、批量处理,例如spooling directory source 以100行作为一个批次读取,可以通过batchsize设置
9、hadoop sink
10、分区和拦截器
10.1、一个flume事件被写入哪个分区是由事件的header的timestamp决定,默认情况下header中并没有timestamp,但是可以通过flume拦截器来添加,拦截器能够对事件流中的事件进行修改或者删除
此回话周郑交战
宋国政变第三年,衰退的周政府又受到致命一击。
郑国国君姬掘突(郑武公)是骊山之役殉难再想姬友的位子,继承了父亲封国的国君,又继承了宰相位置,日夜不停东奔西跑,扩大领土
姬掘突死后,儿子姬寐生,作风更加恶劣,老国王姬宜臼勉强能忍,但是他的孙儿姬林(周桓王)继位,年轻气盛,解除了姬寐生的中央职务,姬寐生立即报复姬林,割走了所有边界麦田的小麦。郑国与周王的大战就这样开始了。
周王朝也走向了没落