阿里前大数据架构师:如何快速的成长为一名优秀大数据架构师
什么是大数据架构师: 围绕大数据系平台系统级的研发人员, 熟练Hadoop、Spark、Storm等主流大数据平台的核心框架。深入掌握如何编写MapReduce的作业及作业流的管理完成对数据的计算,并能够使用Hadoop提供的通用算法, 熟练掌握Hadoop整个生态系统的组件如: Yarn,HBase、Hive、Pig等重要组件,能够实现对平台监控、辅助运维系统的开发,现在向大家推荐一个大数据资源共享群:199427210,里面会有学习路线,相关的学习资料,算法学习资料,免费的视频直播课等等,现在给大家分享成为大数据架构师必须要掌握以下四点
1、为什么需要构建数据架构
数据标准不一致(列名相同数据类型不同、列明相同数据类型相同长度不一、列名没有统一标准识别困难、列名定义不统一类型不一致长度不相同、中文名称相同英文缩写不同或英文缩写相同中文名称不同)
数据标准化管理提些(构建动态单词库,标准遵循度自动检测,标准自动应用,标准管理流程化,构建知识库基础内容,为大数据应用提供统一标准)
标准化管理实施成果,用语校验机制(申请、校验、标准知识库、检验结果报告)
标准对象的自动应用(基于底层知识库将逻辑数据模型转换成相应的物理模型,自动转化)
数据模型管理混乱(校验较差、逻辑结构不一样、反复增加相同表结构、表真正字段没有进行注释)——设计、校验、扩展
数据模型骨骼
数据模型优化方式(数据库参数优化10%、执行计划优化(hint)30%、索引和SQL优化50%、数据模型的优化80%);
SQL语句编写水平不高导致出现严重性能问题(对开发人员执行计划不熟悉);
上线之前的审计体系(与上线之前测试工作并行进行,抓去SQL及执行计划)
相对复杂的数据处理能力欠缺
数据质量查需要执行数据质量管理(质量标准及诊断对象定义、剖析、BR定义、数据质量诊断、数据质量改进);
2、如何构架数据架构
开发需求、应用架构、运维架构、技术规划-》数据架构、业务架构、技术架构、应用架构;
数据架构管理对象、数据架构管理流程、数据架构管理组织、管理系统(数据质量管理系统、配置管理系统);
数据架构各个角色及人员
数据架构部门的角色及工作(数据架构(构建数据架构、制定管理体系、标准化)、数据模型(概念、物理、逻辑模型设计、培训)、程序开发(开发技术支持、形状管理、编写核心SQL)、数据迁移(迁移技术支持)、测试及优化(TUNING、设计最优索引、提出问题解决方案))
3、数据架构管理体系
规范、政策、管理、标准管理、结构管理、审核及管理、企业信息系统;
人员培养、组织形成、工具采购、管理认同(上层关注度);
来自开发(设计争执)、运维(技术反对)、领导方面阻力(短期难以见成效);
数据架构是企业架构中的一个重要组成部分(开发、应用、技术、数据);
内部工作流程(需求登录、适当与需求进行技术讲解、适当了解模型、进行数据需求进行数据模型进行重新设计及变更、数据架构师进行模型审计与审批、自动生成DDL(DBA)、基于业务规则校验数据质量影响、数据错误分析及清洗、相关程序分析):人+规则+技术;大数据学习群:199427210
4、数据架构师成长
认知(定义、从事工作、能力、位置与职业生涯);
学习(途径、培训及书籍、经验学习、相关活动);
实战(理论落地、扩大影响里、星星之火),可从模型审计及SQL优化着手;
成熟(稳定数据架构在企业系统设计、开发、运维地位,形成四足鼎立);
学习技术(企业架构、数据质量管理、数据需求分析、数据标准化、数据建模、数据库设计及应用)