Flink数据类型和序列化

2021-09-19 本文已影响0人程序员小白成长记

一、为什么Flink需要自定义序列化框架

flink运行在JVM之上，将大量的数据存储在内存中，就会面临JVM存在的问题：
1）Java对象的存储密度比较低
2）fullGC的性能问题
3）OOM造成的稳定性的问题
为了解决这些问题，自己实现一个内存管理，用自定义的内存池进行内存的分配和回收，这样就引出了序列化，是将序列化后的对象存储在内存中的。
开源的序列化框架有很多，但是Flink定制自己的序列化框架的好处：
1）Flink对于类型信息了解的越多，可以在运行之前完成类型检查的操作，避免在运行时抛出错误
2）知道数据类型可以选择更好的序列化方式，更好的数据布局，减少内存的存储空间
3）可以直接进行二进制的操作