阿里云优惠活动,代金券,云栖社区帮助中心教程整理分享阿里云ACP(云计算,大数据与aliware)专业认证考试

(2019-01-24已过)阿里云ACP大数据备考方案

2019-01-29  本文已影响542人  胡五个丢

刚刚拿到了新鲜出炉的阿里云大数据工程师的证书,90分,一个月的认真备考终于的到了回报。

这里总结一下我这一个月的准备过程,也给大家一些参考。

首先是观看云骧老师的视频,主要是MaxCompute和DataWorks(原DataIDE)。

MaxCompute部分:

基本概念。包括:task、job、instance等。说到这个不得不提一句,这个概念我也是整理了好久才弄明白。因为我们有task和Fuxi task,job和Fuxi job。这些概念最好背下来,因为考试很可能给你修改掉一部分,让你看着很像是对的,但其实不对。譬如:job是由一个或者多个instance以及其执行次序关系的工作流组成。这句话对吗?

MaxCompute的基本概念

基本框架。包括:客户端、接入层、逻辑层、计算层。比如客户端支持哪些SDK。这里要提一嘴,云骧老师的PPT里是支持Restful API的,经过我的查询是不支持的。接入层需要了解下用户身份认证过程。逻辑层是重中之重,需要知道worker、scheduler、executor的分工。那些task是由worker直接返回给客户的。计算层要大概了解下飞天系统的架构,比如说文件存储在盘古,女娲负责协同服务,伏羲负责资源调度等等。

Maxcompute的基本架构

Tunnel的使用。这个没什么好说的,多试试就知道了,记住有什么API,-s、-fd、-rd等等指令的用法

SQL语法。这部分也没什么好说的,多试多练。对于数据库很熟悉的同学注意下MaxCompute和别的SQL语句的不同。什么不支持主键啦,不支持索引啦等等。运算符和内置函数里尤其需要注意Group By。各种函数都需要注意输入null返回啥。比方说Greatest(1,2,Null)返回值?concat(‘well’,NULL)返回值?

UDF。UDF需要注意的就是UDF、UDTF、UDAF的概念,给你个情景你能挑出合适的函数。然后数据类型和Java的区别。

MapReduce:这个也挺重要的,过程要了解清楚。例如长尾效应该怎么处理

Graph:这个需要了解能做哪些操作。增删点、增删边、修改点边权值。还有什么情景下适合用Graph处理。还有迭代过程中能做哪些操作?

其他:MaxCompute是不能做ETL的,ETL功能由DataX完成。但是可以做即席查询。

DataWorks:

这部分考试还是和之前的DataIDE没什么出入。

管理配置:记住各模块的主要功能就行。

DataWorks的管理配置 角色权限

依赖和调度:重点。下图每个模块都会考。

依赖和调度

运维中心:任务列表和任务运维的区别。任务运维里每个实例能做什么操作,任务列表里每个任务能做什么操作?

运维中心

数据集成:大家一定要注意切分键。一来连考4题切分键我当时阵脚就慌了。

数据集成

机器学习:这部分不太难,考的相对简单。需要分清该情景下适合使用聚类还是分析。给你一个算法,能知道是哪一类的算法。

QuickBI: 主要考察图的运用。给定场景下,适合使用哪个图?那些图是阿里云提供的。这个我推荐购买20块钱的开放实验室完成实验就都记住了,根据我的分数看,QuickBI和机器学习我应该分数拿满了。

其他:其他阿里云产品基本只需要记住下面这张图:什么产品可以大表关联,什么产品不支持查询?

上一篇 下一篇

猜你喜欢

热点阅读