老吴的学习笔记-kafka

2016-07-05 本文已影响559人老吴学技术

kafka是啥？

全世界的消息队列都死光了吗，偏偏要学kafka？

我懂的不多，你不我骗我。要保证可靠性，消息都是要存储在硬盘上的，就硬盘那点速度，怎么可能吞吐量高？

既然这样，我让磁头不要动来动去，待在一个地方死命写不就完了？我好机智。话说这样以后卵用是否明显？

然后呢？

太草率了吧？！

是真的！因为他们发现操作系统对文件访问做了优化，文件会在内核空间分页做缓存（pageCache）。写入时先写入pageCache。由操作系统来决定何时统一写入磁盘。操作系统很鸡贼地使用顺序写入，速度杠杠的！想想看看，每秒600MB，折合为带宽就是4.8G ！千兆以网的速度也不过如此啊。

如此来看，kafka对数据的“吞”入速度确实不错。不过我很好奇，如果我们服务器的硬盘很烂，又或者带宽不高，一台机器处理不过来，kafka如何扩展？

分而治之。不同业务的消息用topic区分开来。一个topic的消息可以发到多个partition(队列分组)。这些partition部署在不同的机器上。producer在投递一个消息之前，可以自由选择要投递到哪个partition. 选择方法就很多啦，你可以轮流着来(round robin)，也可以逮着一个天天来，还可以根据消息的特征来。性能不够，加机器，加partition啦。

吞吐量，吞量只是一个方面。我想知道kafka在吐量上是如何保证的？

能否说细一点？

我明白了。采用pull的方式消费，那么消费者之间不会因为消费速度不一致而互相干扰。消费最快的消费者的速度不会受到任何约束。因此，kafka 对消息的吐量也就达到了极致。

说到消费模式，我想知道消费者是如何消费的？

消费者会自主选择从哪个partition消费。partition内的消息是按生产顺序排列的。如果需要消费时消息的顺序不能乱，需要固定在一个partition消费。

说了老半天，最重要的问题给忘了。kafka中的producer、customer、partition是如何发现彼此的呢？producer怎么知道消息投递到哪些partition？consumer又是如何知道从哪些partition获取消息？

当然是集群组织利器：ZooKeeper！集群中的各参与者将自己注册到ZooKeeper中，从ZooKeeper中发现彼此。详情请参见：老吴的学习笔记-Zookeeper

啊！～～不行了，我感到自己的知识快要溢出了！

少年且慢，还有一事相问。刚才只说了吞吐量，来说说可靠性吧!

请说重点。producer到partition怎么个可靠法？

是这样的，消息在producer内部，因为producer自己失败而丢失这种事情，kafka并不管。
在向partition提交(commit)消息时，partition会先将消息持久化到文件中。
这还不够。如果这时候kafka的这一台机器挂了呢？所以这时候这份消息还不能被消费。
为了提高可靠性，kafka支持为每个partition（leader）设置备份parition(follower). 可以设置多个。
follower唯一的职责，就是消费leader中的所有消息，并持久化在自身的队列中。
当超过一半的parition（包括follower和leader）都存储了消息之后，leader partition向producer返回ack, 表示消息接收成功。
所以，只要kafka向producer承诺了交付，消息就基本丢不了。只有当超过一半的机器（follower + leader）同时失效，消息才会丢失。

如果partition存储消息成功，在向producer放送ack时网络错误怎么办？

在partition内部如何可靠？

从partition交付到consumer如何可靠？

当消费者拉取一条消息时，有两种选择。
一是先向kafka回复说：”我已经成功消费了“,然后再执行业务逻辑
二是先执行业务逻辑，然后通知kafka ”我已经成功消费“
如果使用第一种方法，那么如果在执行业务逻辑的过程中异常，则会造成消息丢失的情况。kafka对此并不知情。
如果采用第二种方法，那么如果业务执行失败，则kafka无法收到消费确认的ack。由于kafka并不能确定是因为业务逻辑失败，还是因为网络问题导致ack消息没有收到，因此下一次消费时会重新消费此消息。这就导致同一个消息被重复消费两次。

那么消息的重复消费怎么解决呢？