基于DataWorks构建数据中台

Dataworks实战1-资源组的规划

2020-11-22  本文已影响0人  子沐然

Dataworks里的资源组分为"公共资源组"、"独享资源组"。其中"公共资源组"是全租户下使用,在任务高峰期会造成数据调度、数据同步延迟,因此不建议使用。

"独享资源组"分为独享数据集成资源组和独享调度资源组。

独享数据集成资源组:外部数据同步至MaxCompute或MaxCompute数据同步至外部需要使用到,实践中建议按任务类型买2套。一套用来低频的离线任务,另一套用来高频的实时任务,其中高频的实时任务资源组配置需要高些。阿里支持独享资源的水平扩展,但只能按首次配置购买,因此建议初次购买时候大一些,如8c16g。日常工作中需要DataWorks-资源组列表查看资源的使用率,持续过高情况下联系运维扩容。

高频的资源组命名:bi_dw_realtime_intergration

低频的资源组名:bi_dw_intergration

独享调度资源组:所有的业务流程里均配置该资源组。如果不慎配置了公共资源组,可以在运维中心-周期任务运维-周期任务页面按"调度资源组"过滤搜索出找出,并修改重新发布。日常工作中也需要在运维中心-运维大屏-调度资源分配里查看资源组的使用率,持续过高情况下联系运维扩容。

数据源配置:为将各系统的数据同步到数据中台中,需要先将数据源配置信息在数据集成-数据源中进行配置。

配置约定:{数据源类型}_{源系统名}_[只读/读写]

譬如:某个pms系统的数据源mysql-rds则配置为:  rds_pms_ro(只读库)、rds_pms_rw(读写库)

          某个los系统的数据源datahub则配置为:datahub_los


喜欢的朋友请帮忙点赞,谢谢大家!

上一篇下一篇

猜你喜欢

热点阅读