数据科学家养成路线
先挂上一张大概一年前就火了的数据科学的技能列表图,乍一看很像地铁图,极客范儿们会不会默默地把它当作桌面呢。一看到十大类的这么多技能,又兴奋又压力,如此高能还是不要经常看比较好。1.基础-2.统计-3.编程-4.机器学习-5.NLP-6.可视化-7.大数据-8.资料撷取-9.数据清洗-10.工具箱,在数据分析相关领域从事1年左右应该就可以涉猎其中的7个点左右,但应该做不到每一项都很深,毕竟技能很多,有些点,如果把其中一项搞透就很大拿了。
把上面的技能篮转化成路线的话,可以简化一些,毕竟成长是需要一步一步脚踏实地积累的,有几下四个主要的方面。
1.从问题出发
以结果为导向,以项目为目标是最快的学习一项技能的方法,如果自己没办法提出一个感兴趣的题目,可以先去Kaggle上,看看一些公司都在关注什么项目,看看一些队长们都是怎么分析问题的。在这同时,可以练习Python的各种Package,一些主要机器学习算法的应用实例,还有编程能力,这时可以快速学习一本‘Learn Python the Hardest Way’,学过编程的人都知道语言都是相通的,会了一门掌握了骨骼,其他的语言就可以通过熟悉和练习‘语法’和‘单词’进行运用,当然每种语言还有它的特有魅力,可以单独修炼。
2.分析能力
第一步只是一个快速了解大体流程的环节,数据科学家最值钱的地方是分析能力以及将分析与商业实践结合的能力。这里不一定非要是数学专业的,但统计学还是至关重要的,不仅有分析问题的整套思路,而且统计学还在很多机器学习算法的发展中起着重要作用,在日后用算法的时候也会更加得心应手。商业意识可以看看麦肯锡的报告,既能锻炼一种分析问题的逻辑,还能培养洞察趋势的敏锐。
3.硬件技能
技术还是王道,在具有较强的分析能力的基础上,要掌握一些技能,才能更好地与数据愉快地玩耍,更快更准更高效。大家熟知的Hadoop,SQL,Python,R等等,数据可视化也是很重要的一方面,R的入门要比D3.js要简单一些。可视化和分析能力是相辅相成的,当你有了分析结果时,你需要更准地传达给相关者,当你还在分析中,有效的可视化,可以帮助你打开思路,发现问题所在。
4.课程
学习是一个人一生唯一的职业。算法,数据结构,文本分析,图像分析,数据挖掘,定量分析,决策分析,竞争分析,预测分析,数据管理,优化和启发等等。虽然我不打游戏,但是上面的技能图让我有种和其他游戏者一样的兴奋感,当你一关一关地把这些有用的技术,先进的思想收入囊中,一点点充实你的装备库,就会觉得强大了很多,不仅可以打小怪兽,甚至可以去火星救援了。
这条路很美,值得坚持五年,十年,二十年,都会一直很有趣。