推荐数据相关的书单
0x00 概述
半年前推荐过一波数据仓库相关的书单,现在应读者朋友们的要求,更新一波推荐的书单!
和以前一样,居士只会推荐自己认真读过的书,没仔细看过的书是不会放出来的。推荐图书的范围主要是和数据建设相关的,具体内容看下文即可知。每本书有一个推荐的星级,5星为最佳。
补充一下,推荐的这几本书,均可在各大网上商城买到,暂不推荐已经不再版的图书,所以不要再找居士要电子版了。
0x01 书单
一、《大数据之路:阿里巴巴大数据实践》 5星
阿里的大数据最佳实践,基本上讲了阿里在大数据实践上的方方面面,特别是数据模型的设计和实践,理论和实践结合的比较好,是我目前看到最好的一本书。
该书可作为整个数据体系建设的参考书,从数据平台到数据仓库到数据应用,都有比较不错的讲解。另外,本书的很多论述可以用作方案设计、老板汇报、晋升答辩等,值得反复看。
二、《数据仓库工具箱(第3版):维度建模权威指南》 5星
英文名:《The DataWarehouse Toolkit-The Complete Guide to Dimensona Modeling》
维度建模是大师 Ralph Kimball 所倡导的, 这本《数据仓库工具箱》是数据仓库经典书籍,特别是维度建模相关的内容非常权威,目前市面上能买到的书,很少有比这个更权威的了。
优点:
-
实践性较强,基本所有的概念都有例子说明
-
易懂,语言通俗易懂
缺点
-
示例都是传统行业
-
还是有一些抽象的概念,零基础来读,可能要花点时间,毕竟经典的数据都需要一些上层次抽象的概念。
三、《数据驱动:从方法到实践》 4.5星
百度大神桑文锋出的书,现在是神策数据创始人兼CEO。
这本书内容很棒,个人感觉主要是从数据分析的视野来讲解整个数据体系,基本把数据相关的方法论讲了一遍,适合所有从事数据工作的童鞋看一下。
书中列出来很多实际工作中会遇到的坑,也都给出了一定的解决思路,但是个人感觉文中涉及到的技术比较少,更多的是各种思路和方法论。
总之,该书一直在公司放着,没事就会翻一下。
四、《大数据日知录》 4.5星
这本书主要偏向于各种大数据系统的原理,是居士翻的最多的一本技术书了,基本上把现在流行的大数据组件都介绍了一遍,深度和广度都有,每章内容后面也都有相应的论文推荐。
推荐这本书的原因就在于现在大部分互联网公司的数据仓库都是基于这一套大数据框架来的,更准确的来讲,大家其实都是先工程,后理论,因此这本书可以作为对大数据生态的一览。
五、《数据挖掘:概念与技术(原书第3版)》 4星
这是一本数据挖掘的书,但是没关系,数据仓库本身就是和数据挖掘息息相关的,或者是说数据仓库是数据挖掘的支撑。这本书的前5章十分值得一读,它讲了其它书没有深入讲的OLAP和数据立方体技术,比如说Kylin构建Cube,其实看看这本书的第五章基本就知道是怎么回事了。
所以强烈推荐看了这本书,至少是前5五章。
六、《美团机器学习实践》4星
美团的技术公众号近段时间经常会更新一些干货文章,本书风格也是如此,相当干货,因此本书刚一面世就让美团的朋友送了一本。
这本书主要是关于机器学习实践的书,可读性很强,都是一些实际案例的讲解,个人认为本书和阿里的大数据之路很类似,都是实战性很强干货十足的书。
本书前面几部分包含了特征工程和用户画像的内容,特别是用户画像体系设计可以参考本书。
0x02 补充
前面推荐的都是居士认为很优秀并且自己看的频率比较高的书,下面几本也各有优点。
七、《数据仓库(原书第4版)》
范式是数据库逻辑模型设计的基本理论,一个关系模型可以从第一范式到第五范式进行无损分解。在数据仓库的模型设计中目前一般采用第三范式。范式模型由数据仓库之父 Inmon 提倡,而这本书就是 Inmon 所写。
这本书是我看的第二本数据仓库的书,个人感受是理论比较强,刚开始看基本就是一头雾水,然后当你做了一段时间后,再回头来看这本书会有很多理论指导,比如说元数据该怎么做,模型该怎么设计,参考性很强。
即使工作了一段时间后,来看这本书依旧感觉比较费劲儿,所以本书翻的比较少,只是偶尔想起来会看一下。
八、《数据架构 大数据 数据仓库以及Data Vault》
本书提出了Data Vault这种数据建模方式,但是Data Vault到底是什么,居士理解的也不深,毕竟在工作中没有具体设计过这种模型。但是值得一读,个人意见,前面的书读完之后可以来翻一下本书。
九、《数据天才:数据科学家修炼之道》
本书探讨来数据科学家是什么,会有很多示例以及分析。书的视角和前面几本都有所不同,个人感觉主要是从人的角度来规划数据科学家的发展道路。
精力有限,本书读了一半左右,还没读完,因此不多介绍,感兴趣可以搜一下本书的目录还是有吸引力的。
0xFF 总结
选书和对书的评论都是居士的个人观点,比较主观,大家选择性参考即可。
另外书的内容主要是大数据体系和数据仓库,比较少涉及数据挖掘和机器学习。