kafka消息格式
2018-12-14 本文已影响0人
码仙丶
- kafka发送消息是有消息格式的,有三个版本V0,V1,V2
-
V0版本:主要指kafka0.10.0.0之前的版本,是kafka最早的消息版本,其消息格式如下,一共7个字段:
V0消息格式
CRC:是整条消息的CRC32校验,占用4个字节,但是CRC校验值发送到broker端,可能消息格式会变,那么crc值也会变,等consumer消费了数据后,crc可能已经变化了几个版本了,所以这个crc值没有太大作用
版本号:占一个字节,其实就是一个数字 0
属性字段:存的是消息压缩格式,LZ4、Snappy、GZIP
key长度字段:占4字节,如果不指定key,那么key为负一,但是空间占用还是4字节,这个是V0的缺陷
key字段:真实的key
value长度字段:占4字节
value字段:真实的消息本身
V0版本有一个很大的缺陷,kafka在删除过期日志时,会根据底层日志段文件的最后修改时间来删除,如果本来过期的日志文件的更新时间变了(比如touch命令),那么kafka是不会删除的,这样就可能发生有些数据可能很久很久都不会被删除,还一个缺点是没有时间戳字段,现在很多计算引擎都会用到时间窗口,那么这个时间戳字段也是很重要的,不过在V1版本时加上了
- V1版本
- 在kafka0.10.0.0后推出了V1版本
- V1与V0有两个差别:
- V1引入了8字节的时间戳字段
-
attribute字段增加了指定时间戳类型(create_time和log_append_time,前者是在producer手动指定时间戳,后者是broker自动生成时间戳),V0版本只指定了压缩类型
V1消息格式