三个月从小白到数据分析师,都是靠着这份书单!
文末有福利~
如何快速成为数据分析师?是很多想转行数据分析的人经常问的问题,数据分析设计多个领域的知识,内容繁杂,很多人没有基础的人自学起来,感觉摸不着头脑,今天就围绕数据分析师的成长路径为大家整理了一个相对完整的从入门到进阶的学习书单,内容较多,建议大家采取阶段性学习。
数据分析基础-统计学
统计学是数据分析方法论中的核心基础,在数据分析的方法模型中,很大程度上都来源于统计学的方法,所以掌握统计原理是必须的。
1、《数学之美》吴军 著
此书名为数学之美,实为信息技术(自然语言处理)中的数学原理(统计语言模型)之美。
更深刻地理解大学所学的线性代数、概率论与数理统计和应该学而没学的随机过程、图论、机器学习的应用意义。
书中将高深的数学原理讲得更加通俗易懂,让非专业读者也能领略数学的魅力。
读者说,读了“数学之美”,才发现大学时学的数学知识,原来都如此亲切,并且栩栩如生,才发现自然语言和信息处理这么有趣。
2、《深入浅出统计学》Dawn Griffiths 著 李芳 译
《深入浅出统计学》具有“深入浅出”系列的一贯特色,提供符合直觉的理解方式,让统计理论的学习既有趣又自然。
从应对考试到解决实际问题,无论你是学生还是数据分析师,都能从中受益。
3、《统计学习方法》李航 著
这本书系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、EM算法、隐马尔可夫模型和条件随机场等。
这些是之后可以直接应用到你的数据分析项目中去的一些方法。从统计向机器学习深入和过渡,对目前目前的统计学习方法有全面的介绍。
数据分析入门
了解一部分统计学的基础知识之后,接下来就可以正式上手学习较为基础的数据分析知识了。
这一部分主要是了解数据分析和数据挖掘的方法、工具等理论上的东西,是为后续的数据分析实战打好基础。
1、《深入浅出数据分析》Michael Milton 著 李芳 译
这本书算是数据分析入门的经典书籍了,基本上被推烂了。这本书最大的优点就是非常的简明易懂,还给你填了很多统计方面的坑,让没有统计知识的你不至于一脸懵逼。
数据分析基本步骤、实验方法、最优化方法、假设检验方法、误差处理、相关数据库、数据整理技巧等相关知识都有介绍。
2、《数据挖掘导论》Pang-Ning Tan,Michael Steinbach 范明 范宏建 译
这绝对是你进入数据分析和数据挖掘领域的核心书籍,也是数据挖掘的入门经典。书中对数据、分类、关联分析、聚类和异常检测作出了细致入微的阐述。还有一些常用的数据挖掘算法和伪代码,可以作为延伸学习。
当然数据挖掘的东西更多的是要去理解,而不是记忆,理解理论背后的原理会让你在后续的实战中能够更加得心应手。
03《数据挖掘概念与技术》Jiawei Han,Micheline Kamber 著 范明 孟小峰 译
这本书的定位和《数据挖掘导论》的定位比较相似,都是在数据挖掘、分析技术的问题上的探讨。
这本书虽然名为data mining,但其实思想都是机器学习的东西,这也可以是一个了解机器学习的不错的切入点。
实战-数据技术
经过前面对于数据分析和数据挖掘知识的积累,相信你已经形成了最基本的数据分析知识体系,也对数据分析的方法和流程有了较为全面的了解。那么接下来就需要上手实践了,做数据分析的工具有很多,比如大家常见的excel,还有python、R等编程语言,这里首推python。
1、《利用python进行数据分析》Wes McKinney 著 唐学韬 译
此书绝对是计算科学和数据分析经典中的经典,强大的地方在于,书中不仅建立了一个完善的python分析方法论体系,还有大量具体的实践建议,以及大量综合应用方法。
将学会如何利用各种Python库(包括NumPy、pandas、matplotlib以及IPython等)高效地解决各式各样的数据分析问题,所以这将是你真正意义上数据分析实战的开始。
2、《python核心编程(第二版)》Wesley J. Chun 著 CPUG 译
要用python进行数据分析,学习python这门语言是必须的了,这本书就是python编程的经典。
尤其是每一小节后面的核心笔记,讲解了一些有用的编程技巧和知识,知识点非常细致,你可以学到很多以前不知道的编程知识。
当然这本书用来扫盲可能有一定的难度,可能更适合进阶,让你打扎实python 的基础。
3、《python数据分析与挖掘实战》张良均 王路 等 著
从数据挖掘的应用出发,以电力、航空、医疗、互联网、生产制造以及公共服务等行业真实案例为主线,深入浅出介绍Python数据挖掘建模过程,实践性极强。
通过这本书,你完全可以阅读过程中,充分利用随书配套的案例建模数据,借助相关的数据挖掘建模工具,通过自己进行上机实战掌握Python的数据分析。
补充-数据库
在涉及到大量的数据之后,数据的存储可能会成为你要考虑的问题,所以关于SQL方面的知识作为一个数据分析师应该有所储备。好在这部分难度并不是很大,并且不要要特别深入的研究。
1、《深入浅出SQL》贝里 著
非常浅显易懂, 图表间的注释是本书精华所在。细致到几近啰嗦,小白都可以轻松看懂,可能是因为数据库技术本身难度并不是特别大。
作为入门的书相当的不错,有辅助理解的讲解和例子,同时有有练习题加深记忆。但书的内容略多,如果你是需要快速学习的话,在你已经理解之后就不必过度扣细节,毕竟你可能需要更多在实战中应用。
2、《高性能mysql》Baron Schwartz 等 著
分享MySQL实用经验的图书,它不但可以帮助MySQL初学者提高使用技巧,更为有经验的MySQL DBA指出了开发高性能MySQL应用的途径。
书中的知识点非常全面,但可能学习成本略高,并非全要掌握,作为遇到困难时的词典查阅也不错。
高手进阶-机器学习
学完上面的书,你基本上已经能够进行简单的数据分析,并且能够较为完善地操作一些简单的数据了。
那么机器学习这部分一定是提升你整个思维方式和数据分析水平的杀器。你将会有目的地去选择合适的方法应用在不同的场景,分析水平得以提升。
1、《机器学习》周志华 著
简明而深刻,厚积薄发的评注非常开拓思维,多是游刃有余之后才可得出的见解。
这确实是机器学习里优秀的中文书籍了,大牛周志华将机器学习中的模型方法,应用场景、理论推导、优化过程、算法等进行了全面而细致的讲解,堆积初级的宏观学习机器学习分析方法可以说是既简洁而又实用。
2、《机器学习实战》Peter Harrington 著
这本书会让你意识到那些被吹捧得出神入化的分类算法,竟然实现起来如此简单;那些看似高深的数学理论,其实一句话就能道明其本质;一切复杂的事物,出发点都是非常简单的想法。
3、《集体智慧编程》TOBY SEGARAN 著
以机器学习与计算统计为主题背景,述如何挖掘和分析Web上的数据和资源,如何分析用户体验、市场营销、个人品味等诸多信息,并得出有用的结论。
想把 paper 上的公式转变为可以运行的代码,这是件考验功力的事情这本书就是是修炼此种功力的武林秘笈之一。
最显著的特点是,实战性极强!针对每个算法,他从头到尾演示了一个完整的实现过程:从获取数据,组织存储,到算法实现,加载运算,再到最后的结果的分析利用。
应用-商业数据分析
经过上面的技能学习,我相信你已经具备了一名数据分析师的核心技能,接下来,你就需要在专业的领域进行深耕,不断积累技术经验和强化业务能力。
此时许多小伙伴可能已经开始从事数据分析师的工作,而数据分析这项技能所能进入的行业范围广,涉及的领域也非常多,你可以根据自己的业务方向来进行书籍的选择,下面推荐的则是比较通用的。
1、《精益数据分析》Alistair Croll 等 著 韩知白 王鹤达 译
这本书里讲解了创业公司该如何确定指标体系,如何用数据指导产品和运营。本书还针对电商、媒体、SaaS、双边市场、UGC等,列举了要关注的指标,并有丰富的案例。
整个书的内容比较散,但依旧是讲互联网产品数据分析方面非常好的书了,对于想就职互联网数据分析的人来说非常实用。
2、《网站数据挖掘与分析》宋天龙 著
本书是目前网站数据挖掘与分析领域最具系统性、深度和商业实践指导价值的著作,由来自在线数据分析领域巨擘Webtrekk的官方资深数据分析专家撰写。
本书从认知、技术、应用、管理和工具5个维度对网站数据分析进行了全面的讲解。具体内容包括: 科学地认识网站的数据分析 ; 从零开始建立企业数据体系 ; 网站数据采集和配置等。
3、《数据分析:企业的贤内助》陈哲 著
本书章节逻辑清晰,从企业的一个个具体的需求出发,使读者对数据分析的了解循序渐进,将复杂的数据分析知识体系串成有机的整体。
以企业经营中的案例为依托,将复杂的数据分析知识巧妙地融入其中,完整呈现数据分析项目的流程,系统阐述数据分析的专业思路、方法和技能!
这一套推荐下来,需要读的书并不少,不要觉得头大,其实根据推荐的步骤已经给出了一条明确的学习路径,即“统计学基础-常用模型理论-编程语言和数据库技术-机器学习方法”。
这些书不必一一啃下来,以所列出的技能为目标学习即可。已经学过的知识也不必回炉重造,比如你之前就有统计的基础,那么统计学部分的书你就没必要看了。
但更重要的是,不要只看书,要尽快让自己步入实践阶段。数据分析作为一门技术,只有在不断地操作当中才能掌握真正的技巧和方法,将知识学以致用。
最后,希望大家在成为数据分析师的路上越走越远~
(附:详细推荐书单目录)
本文中部分书籍,可转发文章并在后台私信我“书籍”领取!