第四章 离线数据开发之数据开发平台
2019-02-05 本文已影响33人
被爱的天青色
数据研发岗位日常工作内容:
了解需求 --> 模型设计 --> ETL开发 --> 测试 --> 发布上线 --> 日常运维 --> 任务下线
统一计算平台:
1)架构
① 客户端:多种方式操作数据
② 接入层:提供Http服务、负载均衡、用户认证、用户访问控制
③ 逻辑层:即控制层,完成命令解析、执行逻辑控制、数据对象管理,包含三个组件:
④ 计算层:专门用于计算的集群,包括
2)统一开发平台
离线数据开发除数据计算平台之外还需要多个子系统解决各种数据开发中遇到的问题,保证任务开发、测试、发布、监控、运维的顺利进行。具体包括以下系统:
① 数据开发平台:作为数据处理的工作台,集成数据开发、调试、发布、任务调度等功能。
② 任务代码规范检查平台:
③ 数据质量控制平台:
④ 自动化测试平台:将重复、通用的操作由自动化测试平台完成,提高测试效率,具体功能如下:
+ 数据对比:对源数据和目标数据进行对比,包括数据量、重要字段统计值、字段空值、字段枚举值等。
+ 数据分布:提取表和字段的特征值与预期结果进行对比。
+ 数据脱敏:线上数据脱敏。