这么学让你4个月转型年薪40+万Hadoop工程师
毕业后做了2年java开发的工作,平时工作很努力,现在带了几个人也算小有成就吧。但是经过我这2年的观察,觉得在java开发这个职位上发展起来太慢、太难了。
在和圈内的人聊天的时候,一致认定大数据行业正在风口浪尖,处于职业红利期,现在做Hadoop开发不论是职业发展,还是获得较高的薪资都比较容易,会java学Hadoop上手也快。所以前段时间决定转行做Hadoop开发。
前几天定下了一个Hadoop开发的工作,年薪40+万,工资比之前做java开发翻了倍,果然现在入行大数据待遇很好。
我学习的时候踩了很多坑,现在看来最多4个月就能搞定的事情,我竟然用了半年时间。都是因为第一次不懂、没人带,浪费了很多精力。我想分享一下我整理的在java基础上学习 Hadoop开发的路线,供大家借鉴。让大家在学习的时候少走弯路,更快的学会Hadoop。
很多同学学大数据但是始终不得法,花了好几个月好不容易把基础概念理清楚入门了,发现写出来的代码断断续续无法成形。大数据学习交流扣扣群:606859705 一起讨论进步学习,多多交流问题,互帮互助,群里有不错的学习教程和开发工具。学习大数据有任何问题(学习方法,学习效率,如何就业),可以随时来咨询。
下面说一下hadoop的学习路线。(有java基础)
我们要掌握Linux的安装及基本操作、Python安装及编程基础。
这时候只需要掌握基础即可,后边遇到问题再学习,这样才不会混乱,学的才扎实。
搭建Hadoop分布式环境
在电脑上安装Linux,环境nat配置,搭建Hadoop集群先让Hadoop跑起来。
学习HDFS分布式文件系统
这一步要学习架构分析、容灾容错策略等。要真正的去敲敲,掌握Linux下HDFS Shell常用命令的使用。
学习MapReduce计算框架(有java基础)
MapReduce是Hadoop核心编程模型。在Hadoop中,数据处理核心就是MapReduce程序设计模型。这一步需要学的东西很多,大家一定要有耐心,把MR的知识学牢固。
学习Strom流式计算(有java基础)
这一步我们要知道Hadoop和Storm的区别,知道他们如何进行互补。了解Storm的体系架构。
学习Zookeeper分布式协作服务(有java基础)
这一步我们要学会Zookeeper开源自带Client工具的Shell使用,开发java代码实现不同类型的节点进行新建、修改、删除和节点的监控。
学习数据仓库工具Hive
这一步要了解Hive的体系架构和其与mysql的对比,要掌握Mysql的基本知识。
学习分布式存储系统Hbase(有java基础)
这一步要掌握Hbase表结构设计、Shell操作(增删查改)、javaAPI操作、数据迁移、备份与恢复。与MR结合实现批量导入与导出,与Hive结合使用,集群管理和性能调优。
学习Spark
这一步要掌握SPark的编程模型、运行框架、作业提交、缓存策略、RDD、MLLib。
学习Scala语言
这一步要掌握Scala的常用语法、函数、元组等操作。
学习Spark开发技术
这一步要能够熟练使用MLLib,能够自己开发Scala的Spark任务,完成表格join、连接和文本串过滤等。
学习推荐系统
我们付出了大量的时间和精力学了前面的技术,最终我们要让它们发挥作用。我学的是现在比较热门的推荐系统,像今日头条、网易云音乐、电商等都需要推荐产品给用户,在这方面人才需求很大。
这一步我们可以找一些案例,研究着学习,要掌握主流的推荐算法
a.学习基于MR、Mahout的协同过滤算法,并进行效果对比。
b.学习基于Spark的协同过滤算法
我们学一门技术的时候,一定要注重实践,要亲自动手去写代码,不断的去尝试。就像开始学java一样,不要害怕遇到问题,问题是最好的老师。但是学习时最好能有人请教,可能一个问题自己1天想不透,别人一句话就给点通了,我前期学的时候就吃了这个亏,有问题好久解决不了,一度失去信心。网上提问回复的慢,解答的也不透彻。
我深知看书学习很难,我前期就是看了阿里巴巴云栖大会大数据专场特邀嘉宾蓝桥老师亲自授课
hadoop视频才入的门。受益良多,蓝桥老师是百度的Hadoop核心师,讲的很详细,内容包括Hadoop入门,Hadoop生态架构,Hadoop大型商业项目,百度的数据量大,是用来学Hadoop很好的案例。
把我的经历分享给大家,就是希望大家少走弯路。
这里整理了一套最新的大数据学习视频分享给进群的每一位学习大数据的伙伴,大数据学习资料分享QQ群:606859705