（2019-01-24已过）阿里云ACP大数据备考方案

2019-01-29 本文已影响542人胡五个丢

刚刚拿到了新鲜出炉的阿里云大数据工程师的证书，90分，一个月的认真备考终于的到了回报。

这里总结一下我这一个月的准备过程，也给大家一些参考。

首先是观看云骧老师的视频，主要是MaxCompute和DataWorks（原DataIDE）。

MaxCompute部分：

基本概念。包括：task、job、instance等。说到这个不得不提一句，这个概念我也是整理了好久才弄明白。因为我们有task和Fuxi task，job和Fuxi job。这些概念最好背下来，因为考试很可能给你修改掉一部分，让你看着很像是对的，但其实不对。譬如：job是由一个或者多个instance以及其执行次序关系的工作流组成。这句话对吗？

MaxCompute的基本概念

基本框架。包括：客户端、接入层、逻辑层、计算层。比如客户端支持哪些SDK。这里要提一嘴，云骧老师的PPT里是支持Restful API的，经过我的查询是不支持的。接入层需要了解下用户身份认证过程。逻辑层是重中之重，需要知道worker、scheduler、executor的分工。那些task是由worker直接返回给客户的。计算层要大概了解下飞天系统的架构，比如说文件存储在盘古，女娲负责协同服务，伏羲负责资源调度等等。

Maxcompute的基本架构

Tunnel的使用。这个没什么好说的，多试试就知道了，记住有什么API，-s、-fd、-rd等等指令的用法

SQL语法。这部分也没什么好说的，多试多练。对于数据库很熟悉的同学注意下MaxCompute和别的SQL语句的不同。什么不支持主键啦，不支持索引啦等等。运算符和内置函数里尤其需要注意Group By。各种函数都需要注意输入null返回啥。比方说Greatest（1，2，Null）返回值？concat（‘well’，NULL）返回值？

UDF。UDF需要注意的就是UDF、UDTF、UDAF的概念，给你个情景你能挑出合适的函数。然后数据类型和Java的区别。

MapReduce：这个也挺重要的，过程要了解清楚。例如长尾效应该怎么处理

Graph：这个需要了解能做哪些操作。增删点、增删边、修改点边权值。还有什么情景下适合用Graph处理。还有迭代过程中能做哪些操作？

其他：MaxCompute是不能做ETL的，ETL功能由DataX完成。但是可以做即席查询。

DataWorks：

这部分考试还是和之前的DataIDE没什么出入。

管理配置：记住各模块的主要功能就行。