(2019-01-24已过)阿里云ACP大数据备考方案
刚刚拿到了新鲜出炉的阿里云大数据工程师的证书,90分,一个月的认真备考终于的到了回报。
这里总结一下我这一个月的准备过程,也给大家一些参考。
首先是观看云骧老师的视频,主要是MaxCompute和DataWorks(原DataIDE)。
MaxCompute部分:
基本概念。包括:task、job、instance等。说到这个不得不提一句,这个概念我也是整理了好久才弄明白。因为我们有task和Fuxi task,job和Fuxi job。这些概念最好背下来,因为考试很可能给你修改掉一部分,让你看着很像是对的,但其实不对。譬如:job是由一个或者多个instance以及其执行次序关系的工作流组成。这句话对吗?
![](https://img.haomeiwen.com/i16095252/2990be58ba3be65f.png)
基本框架。包括:客户端、接入层、逻辑层、计算层。比如客户端支持哪些SDK。这里要提一嘴,云骧老师的PPT里是支持Restful API的,经过我的查询是不支持的。接入层需要了解下用户身份认证过程。逻辑层是重中之重,需要知道worker、scheduler、executor的分工。那些task是由worker直接返回给客户的。计算层要大概了解下飞天系统的架构,比如说文件存储在盘古,女娲负责协同服务,伏羲负责资源调度等等。
![](https://img.haomeiwen.com/i16095252/e5daf8bc24322120.png)
Tunnel的使用。这个没什么好说的,多试试就知道了,记住有什么API,-s、-fd、-rd等等指令的用法
SQL语法。这部分也没什么好说的,多试多练。对于数据库很熟悉的同学注意下MaxCompute和别的SQL语句的不同。什么不支持主键啦,不支持索引啦等等。运算符和内置函数里尤其需要注意Group By。各种函数都需要注意输入null返回啥。比方说Greatest(1,2,Null)返回值?concat(‘well’,NULL)返回值?
UDF。UDF需要注意的就是UDF、UDTF、UDAF的概念,给你个情景你能挑出合适的函数。然后数据类型和Java的区别。
MapReduce:这个也挺重要的,过程要了解清楚。例如长尾效应该怎么处理
Graph:这个需要了解能做哪些操作。增删点、增删边、修改点边权值。还有什么情景下适合用Graph处理。还有迭代过程中能做哪些操作?
其他:MaxCompute是不能做ETL的,ETL功能由DataX完成。但是可以做即席查询。
DataWorks:
这部分考试还是和之前的DataIDE没什么出入。
管理配置:记住各模块的主要功能就行。
![](https://img.haomeiwen.com/i16095252/72e2f11997300a4e.png)
![](https://img.haomeiwen.com/i16095252/0f2f2f06caf6c267.png)
依赖和调度:重点。下图每个模块都会考。
![](https://img.haomeiwen.com/i16095252/bf519d4feb5266df.png)
运维中心:任务列表和任务运维的区别。任务运维里每个实例能做什么操作,任务列表里每个任务能做什么操作?
![](https://img.haomeiwen.com/i16095252/cec0eba340ceb8de.png)
数据集成:大家一定要注意切分键。一来连考4题切分键我当时阵脚就慌了。
![](https://img.haomeiwen.com/i16095252/2134cbb4bc95695a.png)
机器学习:这部分不太难,考的相对简单。需要分清该情景下适合使用聚类还是分析。给你一个算法,能知道是哪一类的算法。
QuickBI: 主要考察图的运用。给定场景下,适合使用哪个图?那些图是阿里云提供的。这个我推荐购买20块钱的开放实验室完成实验就都记住了,根据我的分数看,QuickBI和机器学习我应该分数拿满了。
其他:其他阿里云产品基本只需要记住下面这张图:什么产品可以大表关联,什么产品不支持查询?
![](https://img.haomeiwen.com/i16095252/87b24d7af21e4b80.png)