数据分析 &数据挖掘
Surface data, not mining it(呈现数据,而非挖掘)
对于数据分析的思路、可视化呈现,这些如果你做的好,完全可以成为一个业务指导者;
- “ 数据分析 ”的重点是观察数据,“ 数据挖掘 ”的重点是从数据中发现“知识规则”KDD(Knowledge Discover in Database),数据统计的重点是参数估计和假设检验。
- “数据分析、数据统计”得出的结论是人的智力活动结果,“数据挖掘”得出的结论是机器从学习集(或训练集、样本集)发现的知识规则。
- “数据分析”需要人工建模,“数据挖掘”自动完成数学建模,“数据统计”则是把模糊估计变得准确而定量。可以通过机器学习自动建立输入与输出的函数关系,根据KDD得出的“规则”,给定一组输入参数,就可以得出一组输出量。
重心偏度
数据分析则是业务部门主导,在数据挖掘结果及手工整理材料的基础上,得出他们需要知道的事情。重心在于决策和结果
数据挖掘总体上是业务部门提需求建议,总体规划实施还是技术部门主导。偏向于自动化,大方向上;
运作思路
-
基本思路
- 经典思路:目前在做数据分析时,采用的是传统的逻辑推理的分析的思路。==先提出问题,再通过严谨的逻辑推理进行验证,解释商业问题。==
- 新思路:尝试使用相关性进行数据挖掘分析;就是数据挖掘的一些技术,比如聚类、决策树、随机森林等高级统计模型。这种思路做出的东西,一般而言是技术门槛较高、解决经典思路无法解答的问题,也符合当前流行的大数据思维、人工智能思维。新思路的处理问题逻辑,==先有相关性分析,找出导致问题的相关性因素,然后再解释背后的商业逻辑。==
-
适用范围
- 经典思路:符合人脑的思维模式,由A—>B —> C的逻辑顺序。在解决小而美的独立case时,效率高。当然,实际商业环境中,80%的问题都是小而美的问题,但是出风头的往往是那20%。比如,“为什么今天某个页面的转化率突然升高啦”这类的问题,通过逻辑推理,一步一步下钻,可以很快定位原因。但是对于多因素的问题,交叉影响之下,各有权重,这种思路就有了瓶颈。
- 新思路:这是AlphaGo下围棋是采用的思路,决策next move是因为nextmove对最终赢得棋局概率最高。这是一种结果导向的思维,将智能问题变成了数据问题。AlphaGo不需要知道如何布局,只关注每一次的落子都在提高最终胜利的概率。这种思路可以解决目标明确且影响因素众多的决策问题。这个思路现在越来越火主要由于计算力和数据量的提升和增多,机器有了足够的样本进行testing,如同中国式填鸭式教学,看多了,下意识里就知道如何处理了。
案例
您的问题提到三个概念,数据分析、数据挖掘还有目前炒的火热的大数据,谈这些概念的区别和联系,以及未来的就业前景,就不得不从这些职业细分的来源以及公司的业务需求谈起,通过公司的业务流程把他们串起来,自然能豁然开朗。
-—————————————–
A公司是一家音乐软件公司,一开始只是一个简单的音乐网站,提供其他网站的mp3下载链接和搜索服务,因为访问量小而且没有自己的曲库,所以基本不涉及数据分析,团队构成就是网站前端开发为主。
慢慢地,随着音乐行业竞争加剧以及对版权的重视,A公司开始通过购买版权建立自己的曲库,慢慢地曲库开始有几十万首歌,同时为了现金流开始推广付费会员服务,搭建了一套账号体系,这时因为有了很多自己的数据(歌曲信息数据,会员数据),购买了很多服务器同时团队引进了DBA(Database Administrator),这是技术端最初的数据相关岗位,同时因为数据量小,公司用的是MySQL数据库,因为免费且开源。此时业务端因为每个月都有会员付费情况,而会员的转化率跟付费率是很重要的指标,需要专门的人去跟进并写Excel进行分析,一开始是由产品部的同事在做,慢慢地开始招聘一些专门做报表的人,这是最初的数据分析师,或称数据运营,工作就是简单地处理一下Excel函数,做一下PPT。
后来A公司拿到了风险投资,开始发展多元化产品战略,不仅做音乐软件,还做MTV视频软件,产品线慢慢从1变成2,3,数据源本来只存在于一个产品,现在分散到多个产品,各个产品团队由于数据上报格式不一,口径不一,导致数据无法规整统一地进行分析,于是公司决定成立一个数据中心,统一地从各个产品部门的数据库、网络日志里拉取数据,用统一的格式处理并存储,此时光有DBA就不够了,于是公司决定招聘几个ETL工程师或称数据仓库工程师,负责从各个部门的服务器进行数据的抽取(Extract)、转换(Transform)、加载(Load),形成统一的数据仓库,或称数据集市,这时业务端也不甘寂寞了,你们招工程师,那我们也招分析师,而这时招聘要求也提高了,除了Excel,多了对SPSS及统计背景的要求。
来到了2012年,由于Google的Mapreduce框架大大提高了数据处理的速度,诞生了Hadoop,也就是大数据的技术代名词,大数据的概念吹遍大江南北,很多国内公司都不甘寂寞地整起Hadoop,这时A公司也挖了BAT的工程师过来担任数据架构师,搭建了整套Hadoop系统,虽然是跟风,其实也是因为数据量越来越大,传统的关系型数据库已经不能满足大数据量的存储以及因为快速迭代的互联网开发模式所带来的数据及时性的需求,而随着数据量的增多,数据的价值越来越显重要,这时一种职业开始崭露头角,他们是数据挖掘工程师,挖掘机可不是普通的精通Excel就能干的数据分析师能开的,数据分析师说白了是马后炮,为管理层写写报表,展现一下数据,让管理层知道一下过去一年公司有哪些成长,并不直接产生业务价值,而数据挖掘工程师干的活是预测,是分类,是依托数据为公司开拓更多的产品线,带来更多的用户,他们不仅需要有扎实的统计学背景,还要会编程,会用代码来实现算法,并最好能将算法在分布式平台上实现。A公司的死对头B公司就是靠数据挖掘工程师做的歌曲推荐系统拉来了上千万的日活。
慢慢地数据分析师发现完了,自己做的事情越来越低价值了,工资死活涨不上去,于是转型,变成了数据产品经理,负责分析业务部门的各种业务需求,并负责协调数据仓库团队或数据挖掘工程师,将需求变成数据后台或者如推荐系统、用户画像这样的挖掘类产品。