给大数据入行者的,建议和书单
入行必读:与大数据相关的工作职位有哪些?
国内某知名互联网公司,有关数据分析师岗位的,要求描述:
1. 计算机、统计学、数学等相关专业本科及以上学历;
2. 具有深厚的统计学、数据挖掘知识,熟悉数据仓库和数据挖掘的相关技术,能够熟练地使用SQL;
3. 三年以上具有海量数据挖掘、分析相关项目实施的工作经验,参与过较完整的数据采集、整理、分析和建模工作;
4. 对商业和业务逻辑敏感,熟悉传统行业数据挖掘背景、了解市场特点及用户需求,有互联网相关行业背景,有网站用户行为研究和文本挖掘经验尤佳;
5. 具备良好的逻辑分析能力、组织沟通能力和团队精神;
6. 富有创新精神,充满激情,乐于接受挑战
其中,前三条属硬件要求。一般而言,对于有专业基础(计算机、统计学、数学等相关专业)的同学,入行需要3个月以上的学习与准备时间;而对于非专业背景的转行者来说,入行可能需要更久一点,建议6-12个月的预留时间是合理的。而要成为一个熟练的大数据从业者,2-3年以上的项目和行业经验则是在所难免。
数据分析是一种工具,在金融、互联网、电子商务、公共服务、医疗健康等领域都有着广泛的应用。职位上,偏业务的,有数据分析师、数据产品经理、数据挖掘师等;偏技术的,有大数据工程师、架构师、算法工程师等。晋升通道,是业务主管/数据中心主任、CIO/CDO/CTO、VP、首席数据科学家。可见,数据分析对专业背景和知识素养都有相当的要求,再加之大数据在数学和计算机领域的交叉属性,从事大数据都有一定的门槛限制。
要不要转行?
要不要转行,实际上涉及到职业规划的问题。对此,曾有位哲人发表见解,”最重要的人际关系,是自己与自己的关系,知道自己要什么,不要什么“。这在转行问题上,也是一样。相对于10年以上的职业生涯,拿半年时间用来学习该项技能,还是挺划算的。
读到这儿,可能有人会说了,转行会让之前几年的经验积累统统作废。而实际上,小编认为不必过于担心,因为无论转到哪一行,社会经验和人生理念是都会发挥作用的。而之前的人际关系也类似“山不转水转”的问题,很难界定说哪类人际关系有用,哪类无用——基于这个道理,应全部视作有用。
人生的机会并不多,即使到了30岁,对大多数人来说,这也只是职业生涯的前半部分,完全不必缩头缩脑患得患失。要知道,不怕失去,才有可能收获更多。如果有了明确的发展规划,何不义无反顾地投入到新的开始呢?!
如何转行?
明确了要不要转行之后,就又回到如何转行的问题上来了。
如果你尚未毕业,建议先打好基础,学好概率与数理统计、数值分析、多元分析、泛函分析、软件工程等,可以选修软件工程、数据库原理、一到两门编程语言; 同时掌握分析工具(如spss/R/matlab)原理;有时间的话,可以参加一些数据建模方面的大赛,对自己能力提升和职业生涯会很有帮助。
如果,你已经是一个从业者。要想跨入数据分析师,也许很多情况下你只能从“工人”做起(这意味着在很大长一段时间内,你的工作内容都可能比较枯燥,做的也都是没有“技术”含量的内容),但当你慢慢成为“熟练工”时,随着行业知识和技能的积累,你也会走上“数据设计师”之路。开始从事“高大上”或更有技术含量的工作。
一、至少花三个月掌握技术
正所谓“磨刀不误砍柴工”,作为一个技术工种 ,至少花3-6个月的时间学习大数据分析相关基础知识,是不过分的。时间分配如下:
1、花1个月时间,学习数据库、sql知识,推荐《 深入浅出 SQL(中文版)》;
2、花1-2个月时间,学习基础的统计学知识,搜集统计学学习资料,列个统计学书单;
3、花1个月时间,学习最基础的数据挖掘模型, 推荐《数据挖掘导论( PDF 中文完整版)》;
4、花1个月时间,掌握一门基础的挖掘软件。
基础夯实之后,还要保持持续的学习能力。坚持学习各类知识,不仅限于技能层面。
二、选择感兴趣的行业
如果,你还没毕业。
可以在结合热门行业的基础上,分析自己的兴趣。选定一个行业后,可以通过互联网,熟悉所行业对应的商业模式。有机会,也可以参加一些同行的沙龙或分享,以了解该岗位的人都在做什么 。并对比自己当前的知识储备,有针对性地补充知识。
如果,你已是从业者。
选择本行业或相关行业,会让你的行业经验和业务知识,更好地发挥优势。
三、开始寻找机会
对于跨行业转入的同学,当你做好上述准备的时候。就可以着手找个机会了:
1、内部转岗
2、选择中、小型公司,先入门,再修行。
几点建议
1)勤动手,多实践:
看书和看视频是学不会数据分析的。多参加一些项目,撸起袖子玩数据(make your hands dirty)。通过校内大赛增加实践机会,入行时候找一份能接触到数据的岗位(任何岗位都可以,市场、运营之类的职位很多)。
工具先从一个容易上手的学起,excel/spss/sql都可以,顺手就行,后续可以再学高级工具如R或者python,用到专精同样有杀伤力。
2)终身学习:
前面已经讲过了,即便用一段时间掌握了大数据分析相关基础知识,也还是要在之后的从业生涯里,保持持续的学习力。
因为,大数据是一个实践性很强的学科,从实际工作中获取的知识和能力是学校里无法获得的,企业最终看重的,也是一个人的实际工作能力。你可以在学习社区通过分享和交流,补充课外知识和get新技能。
推荐的书籍
1.《统计学习基础 数据挖掘、推理与预测》
尽管应用的是统计学方法,但强调的是概念,而不是数学。《统计学习基础:数据挖掘、推理与预测》内容广泛,从有指导的学习(预测),到无指导的学习;从神经网络、支持向量机,到分类树、提升等主题,应有尽有,许多例子还附以彩图,是同类书籍中介绍最全面的。计算和信息技术的飞速发展带来了医学、生物学、财经和营销等诸多领域的海量数据。理解这些数据是一种挑战,这导致了统计学领域新工具的发展,并延伸到诸如数据挖掘、机器学习和生物信息学等新领域。
2.《模式分类》第二版
除了保留了第1版的关于统计模式识别和结构模式识别的主要内容以外,读者将会发现新增了许多近25年来的新理论和新方法,其中包括神经网络、机器学习、数据挖掘、进化计算、不变量理论、隐马尔可夫模型、统计学习理论和支持向量机等。
3.《推荐系统实践》
过大量代码和图表全面系统地阐述了和推荐系统有关的理论基础,介绍了评价推荐系统优劣的各种标准(比如覆盖率、满意度)和方法(比如AB测试),总结了当今互联网领域中各种和推荐有关的产品和服务。
4.《深入搜索引擎–海量信息的压缩、索引和查询》
理论和实践并重,深入浅出地给出了海量信息数据处理的整套解决方案,包括压缩、索引和查询的方方面面。其最大的特色在于不仅仅满足信息检索理论学习的需要,更重要的是给出了实践中可能面对的各种问题及其解决方法。
5.《概率论与数理统计》
这本书不用过多介绍了吧,普遍大学里大一时期的教科书,只恨当年没听课啊,现在正在慢慢啃。
6.《大数据:互联网大规模数据挖掘与分布式处理》
主要内容包括分布式文件系统、相似性搜索、搜索引擎技术、频繁项集挖掘、聚类算法、广告管理及推荐系统。
7.《Web数据挖掘》
信息检索领域的书籍,该书深入讲解了从大量非结构化Web数据中提取和产生知识的技术。书中首先论述了Web的基础(包括Web信息采集机制、Web标引机制以及基于关键字或基于相似性搜索机制),然后系统地描述了Web挖掘的基础知识,着重介绍基于超文本的机器学习和数据挖掘方法,如聚类、协同过滤、监督学习、半监督学习,最后讲述了这些基本原理在Web挖掘中的应用。《Web数据挖掘》为读者提供了坚实的技术背景和最新的知识。
8.《数据之巅》
对大数据追根溯源,提出当前信息技术的发展,已经让中国获得了后发优势,中国要在大数据时代的全球竞争中胜出,必须把大数据从科技符号提升成为文化符号,在全社会倡导数据文化。
9.《深入浅出统计学》
本书涵盖的知识点包括:信息可视化、概率计算、几何分布、二项分布及泊松分布、正态分布、统计抽样、置信区间的构建、假设检验、卡方分布、相关与回归等等,完整涵盖AP考试范围。
10.《矩阵分析》
本书从数学分析的角度论述矩阵分析的经典方法和现代方法,取材新,有一定的深度,并给出在多元微积分、复分析、微分方程、量优化、逼近理论中的许多重要应用。主要内容包括:特征值、特征向量和相似性,酉等价和正规矩阵,标准形,Hermite矩阵和对称矩阵,向量范数和矩阵范数,特征值和估计和扰动,正定矩阵,非负矩阵。
11.《统计学习方法》
本书全面系统地介绍了统计学习的主要方法,特别是监督学习方法,包括感知机、k近邻法、朴素贝叶斯法、决策树、逻辑斯谛回归与最大熵模型、支持向量机、提升方法、em算法、隐马尔可夫模型和条件随机场等。除第1章概论和最后一章总结外,每章介绍一种方法。叙述从具体问题或实例入手,由浅入深,阐明思路,给出必要的数学推导,便于读者掌握统计学习方法的实质,学会运用。为满足读者进一步学习的需要,书中还介绍了一些相关研究,给出了少量习题,列出了主要参考文献。
12.《机器学习导论》
对机器学习的定义和应用实例进行了介绍,涵盖了监督学习。贝叶斯决策理论。参数方法、多元方法、维度归约、聚类、非参数方法、决策树。线性判别式、多层感知器,局部模型、隐马尔可夫模型。分类算法评估和比较,组合多学习器以及增强学习等。
《机器学习及其应用》:全书共分14章,内容涉及因果推断、流形学习与降维、迁移学习、类别不平衡学习、演化聚类、多标记学习、排序学习、半监督学习等技术和协同过滤、社区推荐、机器翻译等应用,以及互联网应用对机