大数据程序员大数据,机器学习,人工智能

Kafka的时代已经过去了,未来是Pulsar的吗?

2018-10-11  本文已影响19人  大数据首席数据师

今天InfoWorld最佳开源数据平台奖公布,连续两年入选的 Kafka 这次意外失手,pulsar取而代之。

pulsar最初由Yahoo开发,并于2016年底开源,现在是Apache软件基金会的一个孵化器项目。Pulsar在Yahoo的生产环境运行了三年多,助力Yahoo的主要应用,如Yahoo Mail、Yahoo Finance、Yahoo Sports、Flickr、Gemini广告平台和Yahoo分布式键值存储系统Sherpa。

pulsar和kafka最显而易见的区别是,pulsar支持多租户,有着资产和命名空间的概念,资产代表系统里的租户。假设有一个Pulsar集群用于支持多个应用程序(就像Yahoo那样),集群里的每个资产可以代表一个组织的团队、一个核心的功能或一个产品线。一个资产可以包含多个命名空间,一个命名空间可以包含任意个主题。

分区:pulsar和kafka一样都支持主题的多分区。

持久化:kafka文件存储,pulsar采用Apache BookKeeper存储。这也是pulsar的一个显著优点,kafka文件存储分布在集群的各个broker上,一旦broker挂掉或者新的broker加入就会进行副本的leader选举或者分区平衡操作,这样做会消耗kafka的性能。而pulsar的broker是无状态的,数据存储在BookKeeper中,服务和数据是分离的。所以它并不会面临这种问题,可以随意进行集群的调整。此外kafka的broker还要关心存储量是否超出了自己硬盘的空间。而pulsar不存在这个问题。

发布的 2.2 版本中,Pulsar 将会引入了 SQL,方便对存储在 Pulsar 里面的数据进行 SQL 查询和分析。Pulsar SQL 借助 Presto,为用途提供了高效可扩展的查询。这种高效的查询,主要得益于 Pulsar 底层的存储系统 Apache BookKeeper。

在 Pulsar 从开源到毕业的这段时间,吸引了不少国内外用户。目前 Pulsar 的成熟用户包括 MercadoLibre, Oath, One Click Retail, STICorp, TaxiStartup, Yahoo Japan Corporation 和智联招聘等。

pulsar看上去很美,而且已经有了实践去验证,明天肯定会很光明。但就像kafka一样,刚刚推出的时候,也是一片惊呼,性能碾压,不过时至今日也没有一统江山,每种工具还是都有自己更适合的场景的。所以pulsar肯定也不会一只独秀。但不得不说pulsar在设计上太像kafka了,kafka有的它几乎全部都有。有了pulsar这个强劲的对手后,很期待kafka接下来的发展。

作为程序员来说,pulsar的横空出世,意味着又要多学一门技术了。不过对于掌握了kafka的人来说,pulsar不会很难上手。在研究Java 11的时候,也得腾出点时间好好看看pulsar。当程序员不容易,加油干吧!

大家可以关注我的公众号:“首席数据师”里面有很多干货文章 。

上一篇下一篇

猜你喜欢

热点阅读