推荐!12本看完让你大呼过瘾的大数据入门必读经典
本书单是鉴于本人多年浸淫大数据领域的经验,按照学习大数据的阶段和技术所列的书单,适合刚刚接触大数据领域的新人。
话不多说,直接上书单!
第一阶段:大数据基础语言的学习
Java语言基础:Java开发介绍、熟悉Eclipse开发工具、Java语言基础、Java流程控制、Java字符串、Java数组与类和对象、数字处理类与核心技术、I/O与反射、多线程、Swing程序与集合
HTML、CSS与JavaScript:PC端网站布局、HTML5+CSS3基础、WebApp页面布局、原生JavaScript交互功能开发、Ajax异步交互、jQuery应用Java
Web和数据库:数据库、JavaWeb开发核心、JavaWeb开发内幕
推荐书籍:
《Effective Java》
本书为我们带来了共78条程序员必备的经验法则,针对你每天都会遇到的编程问题提出了有效、实用的解决方案。 书中的每一章都包含几个"条目",以简洁的形式呈现,自成独立的短文,它们提出了具体的建议,对于Java平台精妙之处的独到见解,以及优秀的代码范例。每个条目的综合描述和解释都阐明了应该怎么做,不应该怎么做,以及为什么。
在这里还是要推荐下我自己建的大数据学习交流群:199427210,群里都是学大数据开发的,如果你正在学习大数据 ,小编欢迎你加入,大家都是软件开发党,不定期分享干货(只有大数据软件开发相关的),包括我自己整理的一份最新的大数据进阶资料和高级开发教程,欢迎进阶中和进想深入大数据的小伙伴加入。
第二阶段: Linux&Hadoop生态体系
Linux体系、Hadoop离线计算大纲、分布式数据库Hbase、数据仓库Hive、数据迁移工具Sqoop、Flume分布式日志框架
推荐书籍:
《Big Data》
在大数据的背景下,我很少看到关于数据建模,数据层,数据处理需求分析以及数据架构和存储实现问题。这本书却提供了令人耳目一新的全面解决方案。
《Hadoop权威指南》
《Hadoop权威指南(中文版)》从Hadoop的缘起开始,由浅入深,结合理论和实践,全方位地介绍Hadoop这一高性能处理海量数据集的理想工具。
《Hive编程指南》
《Hive编程指南》是一本Apache Hive的编程指南,旨在介绍如何使用Hive的SQL方法HiveQL来汇总、查询和分析存储在Hadoop分布式文件系统上的大数据集合。
第三阶段: 分布式计算
分布式计算框架:Python编程语言、Scala编程语言、Spark大数据处理、Spark—Streaming大数据处理、Spark—Mlib机器学习、Spark—GraphX 图计算、实战一:基于Spark的推荐系统(某一线公司真实项目)、实战二:新浪网(http://www.sina.com.cn)
storm技术架构体系:Storm原理与基础、消息队列kafka、Redis工具、zookeeper详解、实战一:日志告警系统项目、实战二:猜你喜欢推荐系统实战
推荐书籍:
《Spark 快速大数据分析》
《Spark 快速大数据分析》是一本为Spark 初学者准备的书,它没有过多深入实现细节,而是更多关注上层用户的具体用法。不过,本书绝不仅仅限于Spark 的用法,它对Spark 的核心概念和基本原理也有较为全面的介绍,让读者能够知其然且知其所以然。
《Spark机器学习:核心技术与实践》
本书采用理论与大量实例相结合的方式帮助开发人员掌握使用Spark进行分析和实现机器学习算法。通过这些示例和Spark在各种企业级系统中的应用,帮助读者解锁Spark机器学习算法的复杂性,通过数据分析产生有价值的数据洞察力。
第四阶段: 大数据项目实战
数据获取、数据处理、数据分析、数据展现、数据应用
推荐书籍:
《深入浅出数据分析》
数据分析经典入门。通俗简单,看这本书虽学不到什么数据分析的技能点,却能够让你对数据分析的相关概念有大致的了解。有利于你构建数据思维的基石,尝试跟着作者的思维逻辑去思考、感悟,记住其中提到的一些数据分析原则。
《赤裸裸的统计学》
结合生活讲解统计知识,生动有趣。作者从自身出发,讲述自己从一个只知道学习的学霸,开始发现统计学的乐趣,并将其运用到生活中的故事。因此避免了统计学一上来就是各种晕头晕脑的专业概念的枯燥感。
《精益数据分析》
这本书举例了多种产品,分析了它们的指标、模型。同时将企业分成了几个大的行业类别,并分门别类的讲解了每个行业的商业模式特点及分析技巧。
ps. 对使用者的分析能力要求较高,且必须具备相应的业务知识。
第五阶段:大数据分析 —AI(人工智能)
主要是讲解Data Analyze数据分析基础、数据可视化、sklearn中三类朴素贝叶斯算法以及python机器学习等提升个人能力的内容!
推荐书籍:
《R语言实战》
如果要用R语言做数据分析,建议读完《深入浅出数据分析》之后,就开始读这本。从工具的安装,到具体分析方法在R语言中的实现,讲解详细,可操作性极强,是一本非常值得读的数据分析书。
《数据科学实战》
这本书被业内誉为是“数据分析和机器学习之间的桥梁”。
网评:对于做了一段时间数据分析工作的人,这无疑是进阶更高维度的好书,很难有一本书,能够让你从简单的数据分析平滑地过渡到机器学习和数据挖掘,这本书我认为是这方面做的最好的一本。
《数据可视化之美》
国内第一本数据可视化教材,如果你学习可视化是刚需,看这本。
是数据可视化的入门书籍,系统介绍了可视化的相关概念和常识,教材相对于工具书更为难读,但却能为你增长不少对可视化的认知。