数据分析必备的几个工具和技能
今天用一篇小文章,聊聊数据分析入门的几个必学的工具和技能:)
数据分析怎么学?
俗话说“台上一分钟,台下十年功”。任何人取得的任何成就都不是一蹴而就的,学习之路更应如此,那么你需要的基本功是什么呢?
首先你要有兴趣,然后再谈其它,因为兴趣是最好的老师。
如果你有兴趣,且乐意学习,那么那些理论上看起来可能限制你的条条框框,诸如什么英文水平,数学水平,认知领悟能力等,就已经不是问题了,没有什么解决不了的困难,只有你想!
下面进入正题:
统计学
概率论与统计学,是你不可能逃避或者说你必须爱上的知识,他们是你入门的基石。
通过他们,你能学到什么是概率,什么是概率密度函数,什么是正态分布,什么是假设检验,什么是参数估计。你可以领略到贝叶斯大神的牛X之处,你也可以计算出某些事情的期望与方差,你还会见到排列组合(可能是高中的知识),更有甚者,你还会学到一笔画的问题,还会真正的分析三门问题,看看那些看似违背常理的事情是如何发生的?
有人说统计学是数学上的噩梦,可就算是噩梦,你也要笑醒。
推荐书籍:《商务与经济统计》
我写过一篇,里面有较详细内容:做好数据分析必掌握的那些统计学知识
R语言
逐渐接触它,你会发现它是一种非常美的语言!
为什么美?
因为它可以做出许许多多高大上的图表!
像这样不明觉厉的:
又比如这样充满美感的:
都是出自它的超强的作图能力!
R语言主要适用于EDA(探索性数据分析),也就是你与数据之间的对话,是通过作图来找寻单变量,双变量或者多变量之间的关系,进而发现其相关性。
他的学习也不是很难,掌握了基本操作,要掌握核心的几个包(package),然后经常性的练习,善于借助帮助文档,所谓熟能生巧,就是这个道理。
Python
Life is short,I use Python.
Python语言是一门功能非常强大,实用型非常强的语言,Web编程,网络爬虫,而我用它是进行数据分析。
Python的基础知识一定要掌握好,万丈高楼平地,没有一个坚实的基础,再高大上的玩法都无济于事,不仅要知其然,还要知其所以然。List,Tuple,Dictionary,Set他们各自的特点要乱熟于心,信手拈来。
数据分析自然少不了要掌握pandas和numpy两个包,如果用到数据可视化(后面会讲到),肯定要用matplotlib包,这三个包基本上就是Python进行数据分析的半壁江山以上了,好好掌握,不能将就。
推荐书籍:《利用Python进行数据分析》
数据可视化
数据可视化(Data Visualization)是指你与观众之间的交流,与EDA不同的是,一个着重于探索,一个着重于表达。数据可视化,有许多好的网站资源,好的书籍可以参考。
我认为数据可视化的核心是作者能够清晰地传达最想让读者明白的东西。
我给你一张图,你一眼就能看出我想表达什么,这就是数据可视化。而不是乱七八糟,东拼西凑出来的看起来啥都不明朗,一个糟糕的可视化可能就会错失巨大的机会。
这里主要涉及的方面可能会涉及到JavaScript,这个和前端貌似有着千丝万缕的关系。我们使用的是JavaScript的库,图表插件主要使用的是D3和Dimple,前者自定义程度高,但是略复杂些;后者集成度比较高,操作使用方便,但是个性化元素比较差。他们都可以在网页上实现动态展示。
还有一类大数据据可视化软件,比如 tableau,FineBI,企业级用。由于企业对数据处理的稳定性和速度要求较高,chart插件在大数据量上的应用不是很多,主要会利用商业智能FineBI这类,来集成一个数据平台,做统一展示。
推荐书籍:《精通D3.js:交互式数据可视化高级编程》
以上
如果想要入门数据分析,可以从这几个工具/技能入手,先熟悉和了解。这种方式比较适合想要跨行进入数据分析领域的人,因为可利用零碎的时间来学,而且可以先暂且不用太顾虑数据分析系统性的东西;后期再由点到面,一点点深入,将它们联接起来。
如果对数据分析感兴趣,可关注公号“数据分析不是个事儿”,[十周入门数据分析]系列正在更新中。