大数据,机器学习,人工智能java大数据 爬虫Python AI Sql

Kudu使用最佳实践以及踩坑记录

2019-09-26  本文已影响0人  山间浓雾有路灯

Kudu表结构设计最佳实践

1.字段设计

2.主键设计

3.分区设计

Impala与Kudu Client场景选择最佳实践

Kudu API性能优化

踩坑记录

接着再看一下源表的数据量和部分数据


原始数据.png 原始数据信息.png

最后看看落盘到kudu表里的信息

落盘数据.png

总结:range分区没有覆盖的数据不会落盘到kudu表中,且kudu表在upsert时根据主键自动判断是update操作还是insert操作,主键重复的数据进行update操作

int分区.png

理论上这样分区已经对id数据进行了全覆盖,但是实际上落盘数据为0.

2019-08-31_104627.png

总结:在做数据导入时,主键的数据类型要一一对应,若数据类型不对应,数据无法落盘(oracle的number类型进行数据类型匹配时要特别注意)

上一篇 下一篇

猜你喜欢

热点阅读