好程序员大数据

大数据那么火,到底该进行大数据的入门级学习呢?

2019-10-11  本文已影响0人  ab6973df9221

  大数据那么火,到底该进行大数据的入门级学习呢?首先学习大数据需要对学习一门编程语言进行入门编程,一般是选择Java或Python,现在主流的方向是以Java作为入门编程语言学习,因为后期的Spark需要使用scala语言进行编程,而Scala和Java有千世万缕的联系,所以建议从Java开始学习,JavaEE方法向可以适当的学习一些SSM,大数据主要是对数据进行处理,对JavaEE端没有太大的需求,其次需要学习的是数据库MySQL作为广泛使用的一个数据库,可以作为入手,安装简单方便学习利于上手,并且可以学习SQL为后期学习Hive做准备。

  这些学习完成后,可以开始接触Hadoop生态圈,Hadoop自身的三大组件HDFS,MapReduce,Yarn先入手学习,现有分布式思想,前面学习的Java语言也是MapReduce计算框架的编程语言,学习这些之后可以开始学习Hive数据仓库,主要是先学习基础操作前期学习了SQL语言而Hive编程语言是类SQL语言叫做HQL,上手起来会比较快,然后学习数仓建模,接下来做一个关于数据仓库的项目,在项目中学习Flume,sqoop和anzkaban.Hbase数据库也可以学习,使用方式可能跟传统数据库不一样,需要注意:二级索引,rowkey,列簇等应用.这部分学习完毕基本上Hadoop部分的日常开发是可以了。

  除了Hadoop这个部分外,可以学习另外一个计算分析引擎Spark,Spark是基于内存的计算引擎,独有的RDD依赖和血缘关系、DAG和Stage让spark在计算数据时数据更快,spark默认使用的是scala语言编写,scala语言和Java语言类似,之前有Java基础上手Scala语言相对容易并且Spark中分为SparkCore核心,SparkSQL对接Hive,SparkStreaming实时,这些都可以完成日常离线和实时开发,而且SparkStreaming作为老牌的实时引擎相对使用比较广而且稳定,并且集合消息中间件Kafka可以做到实时数据消费,新型的Flink实时计算引擎也可以学习,现在是阿里巴巴推荐使用的.最后在做一些spark项目基本上就可以完成学习了。

  材料的话不建议看书,因为书不是每个人都会去认真看的可以去找一些视频看,好程序大数据课程推出了很多优质免费的学习视频可以看看,书可以在系统学习完后再补充看。

好程序员大数据教程:http://www.goodprogrammer.org/bigdata.shtml

上一篇下一篇

猜你喜欢

热点阅读