活到老学到老库首页投稿(暂停使用,暂停投稿)大数据 爬虫Python AI Sql

人人都是分析师

2017-01-24  本文已影响364人  keeya

“人人都是数据分析师”,这句话并不是空穴来风,而是随着大数据的深入落地,每个产业都会以数据驱动的模式经营。因此,这要求产业中的每个人都必须能够分析数据。同时,伴随着技术的发展,也会有很多简单的工具供大家使用。

当打开招聘网站中数据分析师的岗位介绍时,能够发现数据分析师的要求离不开做模型、能够使用分析软件、统计分析等几个关键词,一眼看去会给人一种这是一个技术要求很高,对数学要求很高的工作,数据分析很难上手一样。其实,事实并不是是这样,尽管数据分析有一些高级的方法和技术,然而每个人依然能够轻松上手,驾轻就熟地开展数据分析工作。数据分析看起来是件难事,但是只要掌握了数据分析的心法、手法还有利器后,就很容易进入驾驭手边数据的门槛,并且还有机会步步深入。

数据分析的心法、手法和利器

数据分析的心法,其实就是指做分析的思想,思想并不像数学证明一样晦涩难懂,反而更多的是会依靠尝试。心法之下是手法,手法就是数据分析方法论,有了思想的指引,再加上方法的入手,相信每个人能够对数据分析学得一招半式。利器就是指分析的工具,有道是“工欲做其事,必先利其器”,掌握了数据分析的工具,能够更快的得出分析结果,同时也能够更容易分析维度更多,记录更长的数据。

心法——做分析的思想

心法是数据分析的基础,也是对数据分析最精炼和最有高度的总结。做分析的思想,可以一分为三,其一为商业认识,其二为业务理解,其三为分析思路。

数据分析的心法

从商业认识就可以看出,这里说的数据分析是在商业领域的,相对广泛的分析场景和分析对象而言,只能算是狭义的数据分析。数据分析不仅仅是用于商业领域,还可以用于其他多个领域,例如生物中的基因检测,电子信息中的信号检测等等。当然在这里就以商业为例,来解释分析的思想。商业认识是在在商业领域中的基本思想,其在管理学和经济学中都有涉及,例如战略领域中的SWOT分析,PEST分析,在营销领域的4P、4C、4R等等。这些商业思想早已成熟,并且在定性的领域得到了广泛应用和有效性验证。对数据分析而言,利用商业领域的基本思想的目的和意义就是在于构建分析的逻辑,在的指导下,明确分析什么数据,从哪些角度分析。并且相关理论也在指导应该选取哪些方法来分析。商业思想的价值让数据分析能够有一个清晰的路径,在思想上保证分析流程的效率。

分析思想的第二项是业务理解,业务理解用一句话来解释就是“无业务不分析”,只有在正确理解了业务的基础上,才能得到有效和可靠的分析,业务理解包括了理解目标客户,理解业务流程等等。在数据分析中,只有数字的堆砌是没有价值的,一定要放到业务环境中去理解。例如一个数字20,这里一点意义都没有。如果加上一个单位:20吨,其实就是蕴含了重量的信息,然而这个重量的信息依然要放在具体领域去理解。如果在航空领域,可以是20吨的飞机载重重量,这种场景下就有了理解数据的基础。更进一步的,如果是一架战斗机的载弹量20吨,在这种情况,更能够通过这个20吨的载弹量带来载弹量是大还是小,在领域内排名如何,有无改进空间等等信息。一个数字从加上单位,再进入特定领域,同时更进一步的有特定的对象,这样一步一步就让数据能够带来越来越多的信息,数据价值的体现也越来越重要。

分析思想的第三项是分析思路,在各个领域中总有各种各样的分析思路在数据分析中体现,例如层次分析,加权比较,关联分析,决策树等等,有些思想简单,有些的思想非常复杂,然而对所有的数据分析思路而言,可以总结为四个字两个词:对比和拆分。对比就是比大小,这是数学最基本的功能:哪个数大哪个数小,哪个数比哪个多几个,哪个比哪个多百分之多少等等,这些都是比较。而拆分,就是把数据分开了比,是对对比的深化,如像手术刀一样其剖析分析对象结构,往往更能发现问题所在。

对比和拆分的思路,既可浅显,简单的几个动作就能得出数据价值,也可高深,在对比和拆分思想的基础上能够延伸出无数的方法,用于处理各种复杂问题。就对比而言,只要选择不同的对比对象,就可以产生各种信息。就拆分而言,只要选取不同的维度,就可以发挥不同的作用。

心法之对比和拆分的思想

在对比上,可以选取的对象实在太多。首先是和自己比,可以在时间的维度上展开和自己的对比,例如对比过去和现在的情况。我们时常能在新闻中看到这样的报道,当前的经济相比改革开放初期增长了多少,GDP要在21世纪比1980年翻两翻等等。其实这些都是通过对比不同时代的中国经济数据,以展现出改革开放取得的成果。其次可以把自己和别人展开对比,这种方式在对标竞争对手的过程中常常看见。比如两家公司的在年报发布以后,就可以对比在销售收入和利润上的差异,各个经济指标一经比较,顿时高下立见。放大对比,是将自己和更大的宏观对象进行比较,比如对比一家公司和整个行业的情况,通过比较诸如某公司销售利润和行业平均利润的方式,顿时就能够知道这家公司在行业内部经营如何,是靠前还是靠后,还有没有上升空间等等信息。缩小对比,是将自身和更微观的对象进行比较,与一家公司对比整个行业相反,可以将这家公司的经营情况和其下属子公司甚至部门一一进行比较,这样就知道了哪些子公司的产生巨大贡献,哪些子公司还在拖后腿。在有了如下信息的基础上,就可以决策到底应该对优势子公司加大投入,还是对落后子公司进行裁撤。对比的思想不会仅仅只有自身、他人、放大和缩小四种情况,只要是平常能够想到的,都可以通过对比相关数据后,得出有价值的信息。

拆分是对比的扩展和延伸,也是数据分析逻辑展开的重要部分。通过对数据的拆分,能够将分析的对象一步步细化,在抽丝剥茧中获取有价值的发现。例如可以把一个数据拆分成不同的对象,例如全国的GDP就可以拆分成为不同的省市,再通过不同省市间的对比,一下子就知道哪些省市领先哪些省市落后。又如在新闻中常说的房地产对GDP的贡献是多少,其实也是将全国的GDP按照产业进行拆分,然后得出的房地产对GDP的贡献。同时拆分可以分时间进行拆分,把一年分成12个月,通过月度的拆分就可能看到一年期间每个月的数据变化。例如在天气预报上常常看见1月降雨量和7月降雨量两个指标,这两个指标就揭示了一年中降雨最少的时候和最多的时候有多少,这个按月对全年降雨量的拆分方式就会比单单一个全年降雨量数据带来更多信息。此外,还可以按照相关的指标进行拆分,通常这些指标都有一定的逻辑关系,能够通过对指标的展开揭示出更多的信息。例如对利润可以通过公式“利润=收入-成本”的方式进行拆分,这样一下子就知道收入和成本的利润的影响程度。又例如对路程按照“距离=时间*速度”进行拆分,就能够知道移动的距离更多来源于速度快还是时间长。拆分的思路,也同对比的一样,不仅仅局限于对象、时间和指标,只要在逻辑上能够展开,都能够进行拆分。

对比和拆分的思路可以同时应用,这样可以带来更多的价值。例如在对比两家公司的利润时,就可以将两家的利润拆分成收入和成本,就能够在利润的基础上,对比出两家公司的收入和成本哪个更具备优势。又例如在对比一家公司两年的收入情况时,就可以将两年的收入分别拆分成12月的情况,这样分月对比,可以带来收入是否具有周期性,以及收入的变化是否具有稳定性等等诸多信息。

对比和拆分是数据分析的基本思路,基于这两个思路,可以衍生出更多的方法,往往对数据的金矿挖掘,就是从对比和拆分中开启的。

手法——数据分析方法论

数据分析的手法是指数据分析方法论,即实施数据分析的通用方法。在数据分析中,有一套严格的分析流程,任何一个分析项目或者任何一项分析工作就都是围绕这个流程展开的。

数据分析总体流程

数据分析的总体流程的一条主线依次是:确定分析目标、业务理解,数据提取,数据整理,数据分析和结果展现,另外在数据提取的步骤以前,还会经历数据采集和数据储存的过程。

从整个流程可以看出,数据分析的起点是在分析目标上,而并非数据本身,这也说明了数据分析并不是以数据为导向的,反而是以业务为导向的。数据分析的流程是以确定分析目标开始的,其目的就于明确分析的目的、对象和边界。只要有数据确实可以带来许多的信息,依次也更需要把问题聚焦,明确通过数据分析,需要去解决什么问题。对一家公司而言,分析其成本对利润的影响还是销售对收入的影响都是不同的命题。因而只有确定了要分析的问题,才会去安排后续的工作。

业务理解是将确定了的分析问题落地的过程,这里其实就是要将业务问题转换成数学问题,把业务的各个环节抽离出来,通过定量的方式来表现和构架。这句话看起来很抽象,也很复杂,其实简单的来说,就是明确通过分析哪些数据来得到结果,以及明确所分析数据之间的逻辑关系。在业务理解中会确定分析思路,从中明确将那些定性的工具按照定量的方式来使用,明确要对比那些数据,明确要从哪些维度上面将数据进行拆分。因为,业务理解是数据分析的关键步骤之一,也是数据分析工作的中枢,数据分析的是否具有严密的逻辑,是否能够深入都是来自于对业务理解程度上。例如分析一家公司的盈利情况,就需要在业务理论的环节中,考虑应该按年进行拆分还是按月进行拆分,是重点看收入还是重点看成本,是否要分产品形态和业务板块来进行拆分。在业务理解的环节中,只有数据分析的能力是不够的,还必须要能够理解业务,要明白应该从哪些方向去拆分数据,从哪些方向去构建分析的过程,还有从哪些维度去解读数据。

数据提取就是指把在业务理解中明确要分析的数据提取出来,这里的数据有可能是企业内部数据库已经储存好的二手数据,在后面经过加工后,就可以直接使用。另外也有可能是当前企业还不具备这些数据,需要从企业内外部去获取。因此这里就是涉及到了数据采集,自己去获取一手数据,在获取一手数据以后,需要将按照相关标准的形式储存下来,因此也涉及到了数据储存。

数据整理是对数据加工的工程,即将原始数据提取出来后,形成可以供分析标准形式,为后续的数据分析打造基础。数据分析是从数据中获取信息的过程,在数据分析的过程就是实施对比和拆分的过程。通过对比和拆分,从数据中提取出信息,并进行解读。数据分析既可以是简单的计算,也可以进一步地使用统计学、数据挖掘、机器学习甚至深度学习的相关算法和工具,这些都取决于对分析的精度、方法的要求以及所分析数据的复杂程度。

结果展现是把数据分析的结果通过图表化的方式展现。通过图表,使人看到的不是冰冷的数字,而是生动的图表,这样更容易理解数据呈现的信息。

在数据分析的流程中,分析目标和业务理解是由业务驱动的,考察的是对问题背景的认识和解决问题的逻辑。而其他的部分则是更多地由数据驱动,考察着数据分析的方法和技术。在着重考察数据分析方法和技术的步骤中,数据采集、数据整理、数据分析和结果展现是比较关键的几个步骤。

数据分析流程关键步骤

数据采集是获取数据的过程,也是整个数据分析过程中输入的源头,如果没有数据就一切无从谈起。数据的来源可以有很多,最简单的就是手工记录,不论是远古时期的结绳记事还是选举时画“正”字,都是属于手工记录。有时我们会在大街上偶遇手持调查表的调查人员,还有我们在办理银行卡时填的表单也都是属于手工记录,只不过当完成了手工记录的步骤后,还需要通过电脑或者其他终端的形式,录入到系统中去。手工记录是一种低效而且容易出错的方式,对于产生大量数据的环节来说,这并不是最好的方法。因此,也会在产生数据的环节中,采取由系统自动记录的方式采集数据:每个人每个月的通话清单就是由电信运营商的系统自动记录的,还有每个人上网的每个点击和浏览的动作也会被记录在相关网站后台和自身电脑的网络日志中。自动获取数据的还可以通过网络爬虫的模式,即编写一个代码,让机器模拟成人一样,去访问各个网站,同时记录网站上面的信息。爬虫具备适用范围广以及效率高的特点,所以深受数据采集人员的喜爱。在数据采集环节中,除了自己去获取数据外,还可以通过对外购买和交换数据的方式,如贵阳大数据交易中心就在提供购买和交换数据的服务。

数据整理是数据分析前的重要准备环节,其目的主要是把数据按照相应的字段整理成可供分析的标准格式。由于数据采集和记录过程中有可能会存在部分质量问题,因此需要对数据按照质量进行规范化的操作,这里包括了处理缺失值,即对数据缺失的部分是考虑剔除还是用其他值来代替;处理错误值,对明显错误的数据如何处理,比如个人存款存在负数的情况,是看调整为零还是剔除处理;处理异常值,即一些过大或者过大的数值应该如何处理,例如针对一个人行走的速度是70km/h的数据,需要考虑是否调整为7km/h。除了处理数值以外,在数据整理中还需要考虑变量的问题,一方面由于原始数据中维度太多,不一定全部进入数据分析环节,因此需要考虑选取哪些变量进行分析。另外一方面,也有所需要的数据要通过对原始数据中变量进行计算产生的情况,因此会涉及到对衍生变量的计算。当原始数据中只有时间和距离的变量,同时需要速度的数据时,就要通过“速度=距离/时间”的公式计算速度这个衍生变量。

在对数据完成了整理工作后,就进入了数据分析环节。数据分析就是通过数学模型对数据进行拆分和对比的过程,这也是整个数据分析总体流程中的核心环节。数据分析的过程中,分析模型可以很简单,简单的拆分和对比就能够得出结论。同时,模型也可以特别复杂,需要花费大量的计算资源。通常来说,分析模型有三种类型,首先是描述统计,例如计算平均值、中位数、方差、分位点等等。稍微复杂一点,会涉及到统计学更高级的部分,即探索性分析,例如假设检验、方差分析等等。更进一步地,就会用到数据挖掘的相关技术和方法了,包括决策树分类、回归分析、聚类分析,关联分析等等工具,当然还有更复杂的使用深度学习技术。对于模型的复杂程度的选择,取决于问题本身的复杂程度和数据本身的复杂程度。

结果展现是对数据分析结果按照相关的图表进行展示。数据分析的结果往往也是数据,因此用图表展示数据,有更好的可读性和可理解性。图表也是一个拆分对比的过程,在拆分对比中可以分为绝对比较,相对比较和综合比较三种模式。绝对比较是直接比较数字的数值大小,通常使用条形图,直方图和折线图可以清晰地反映出各部分大小和趋势。相对比较是比较数据的相对大小情况,例如圆饼图就可能展示出在一个总体中,各个分类所占的比例。综合比较,会从多个角度同时来对数据进行比较,比如蛛网图就可以在多个指标上面同时对比多个维度进行绝对或相对比较,又如气泡图可以从3-4个维度上对比多组数据,即按照X轴,Y轴,气泡大小,颜色深度的形式体现出数据差异。结果展现是对数据艺术化的表现,并不拘泥于一种图表,往往会有各种生动的数据可视化形式,当前常见的信息图就是其中的有效又美观的展现方式。

利器——分析工具

对数据分析而言,有了思想和方法就基本具备了通过分析数据并从中解决问题的能力。在这个基础上,掌握好数据分析的相关分析工具,就能够更高效地分析数量更大的数据,从而快速提升数据分析的效率和体量。数据分析工具是专门用户分析数据的软件,也被称为数据分析的利器,这是因为机器的计算能力远远大于手工计算,借助机器,可以实现对多维度、体量数据的快速计算。在有了正确的思想指导和方法准备的基础上,诸多复杂问题都可以在分析软件的协助下,迎刃而解。

数据分析工具体系

当前市面上有众多的数据分析软件,从任何电脑都能用的单价计算到需要借助联机处理的分布式处理平台都有覆盖。简单地说,数据分析最普遍和最基础的软件就是电子表格,其代表性的就微软OFFICE套件中EXCEL。EXCEL在每台电脑上都能够使用,可以胜任平常人使用的数据分析任务,再加上有诸多的扩展功能,也会有各种各样的使用场景,因此这被称为数据分析的第一神器。市场上除了微软外,还有诸多的厂商出品类似EXCEL的电子表格工具,而且许多都是开源和免费的,因此对电子表格软件而言,每个人的获取成本的都可以为零。

EXCEL是通常用于数据分析的办公软件,并不是专门的数据分析软件。对数据分析而言,专业的软件有很多,首先是IBM的SPSS软件,SPSS包括了SPSS统计和SPSS MODELER,两种软件都就具有平缓的学习曲线,因此也是属于数据分析的入门级软件。

再向上是诸如SAS,MATALAB,PYTHON,R等专业软件,能够熟练使用其中一种软件是当前对数据分析师的专业要求,因此在绝大多数数据分析师的招聘启事中,都有这些的软件要求。

对单机分析而言,除了使用数据分析专业软件,还可以使用例如C语言,JAVA等编程语言。这些语言很多情况是开发人员用于把相关数据分析的算法和过程,嵌入到软件和系统中去。当然使用这类语言进行数据分析对编程的要求更高,因此又被称为数据分析的扫地僧级工具。

除了单机分析外,还可以进行联机分析,即多台机器同时承担一项分析任务,当前最热门的分布式计算就是数据联机分析的范畴。对联机分析而言,就需要搭建相关的高速平台来实现。例如HADOOP就是现在常用的分布式计算架构,SPARK是高效的分布式数据分析引擎。

各种数据分析软件对数据的处理能力都不一样,其功能也各有千秋。

对数据分析的第一神器EXCEL来说,其主要用于处理1万-10万条内的数据。03版本的EXCEL能够处理6万多条数据,在07版本以后,EXCEL能够处理上百万条数据,但是由于计算性能的原因,通常EXCEL处理的数据更多在10万条以内。Excel功能强大,在数据有限的情况下,几乎可以替代任何分析软件。

EXCEL——数据分析第一神器

首先EXCEL具有非常强大的数据采集功能,除了对数据手工录入和复制粘贴外,EXCEL能够从网页中的数据表格按照原格式采集。同时EXCEL能导入文本文件,因此在数据分析中常用的csv文件就能够导入进EXCEL,同时EXCEL还支持SQL语句从数据库中导入数据。总之常见的数据格式,都能够导入进EXCEL中去。

同时,EXCEL的运算功能非常强大,对于EXCEL自身而言,就有大量的函数可以进行数学运算,从统计到三角函数,从科学计算再到财务计算都有覆盖。利用EXCEL函数,也能够实现数据的快速匹配和查找功能。在EXCEL的运算功能中,可以利用VBA编写相关的宏代码,这让相关的算法都能够嵌入到EXCEL中去。因此,借助VBA,EXCEL能够实现任何计算。

EXCEL还具备数据钻取功能。数据透视表是EXCEL中一个非常实用的工具,透视能够让EXCEL将一张二维表格,按照不同的变量从多个角度来构建想要汇总表格,同时还能够实现指标之间的计算。因此,借助数据透视表,分析数据时,能够很方便地从多个维度来拆分数据进行对比。

另外,EXCEL还有极其高效的数据展现功能,EXCEL自身就带有大量的图表,其包括了折线图,直方图,饼图等等基础图表,以及气泡图、蛛网图等复合图表。加上还支持多个图表之间的组合,因而EXCEL能够做出各式各样既能够准确表明数据同时又很美观的数据图表,如风车图、南丁格尔图等等。在当前最热门的信息图的绘制,都可以通过EXCEL来完成。还有在最新的EXCEL中,已经能够导入地理信息,这让数据地图能够在EXCEL中实现。

EXCEL是办公软件,由于其具有良好的数据处理和计算功能,所以常被在数据分析中使用。对于数据分析,还有一些专业的软件和工具可供使用,这些软件和工具功能更强大,因此也可以算作是数据分析的高级武器。

分析工具中的高级武器

在众多的高级武器中,IBM的SPSS具备操作简便容易学习的特性,算是入门级软件。相比其他分析软件而言,SPSS是图形化界面,可以像excel一样,直接通过菜单操作,而不需要编写代码。比EXCEL更高级的是,SPSS除了可以使用描述性统计外,还能便捷地使用验证性统计和探索性统计,进一步地,在SPSS MODELER中能够实施数据挖掘。SPSS还具备代码功能,因此对于数据分析具有较高的拓展性和自主性。

SPSS具有易操作,能分析的优良的特性,但是对于大规模多维度的数据分析,就需要用更专业的数据分析软件,例如当前市面上常见SAS、MATLAB、PYTHON和R等分析软件。同时,这些也是较主流的分析软件。与EXCEL和SPSS不同的是,这类软件需要通过代码来完成数据分析的操作,因而这在一定程度上也能够作为编程软件来使用。这些软件数据处理能力强大,处理的数据能够达到上亿条,数据的大小能够达到GB级。此外,这类软件能够以通过表格的方式展示数据,便于使用者随便查看正在处理的数据的情况。

在数据分析中,还有用到C语言,JAVA等专业编程语言的情况。这些编程语言,往往是在相关的软件和系统中,将数据分析的相关算法进行嵌入和封装,其目的是让软件和系统实现数据分析的功能。这类软件在数据分析领域中的使用,更依赖于前期对数据分析算法的逻辑的正确梳理以及对环境中数据结构的正确对接。在当前的数据分析招聘启示中,能够时常看到对C和JAVA的要求,这些都说明了在软件的开发工作中,数据分析的重要作用。

SPARK,HADOOP是当前主流的大数据处理和平台和引擎,其能够处理的数据量已经能够到达PB级甚至更高。通过并行计算的机制,即多台机器同时处理数据,能够实现对大量数据的高速分析。同时,他们也具备多种语言的接口,这使其处理的数据能够在JAVA等编程语言以及R等专业分析软件被调用,因而极大地扩展了大数据处理的范围和场景。

在对数据分析工具的而言,从简单易用的EXCEL到复杂而功能强大的大数据分析平台都有覆盖,对于大多数人来说,EXCEL就已经足够,如果还有更高的数据分析要求,就可以切换到其他更高级的工具上去,让更专业的人员来完成相应的分析工作。

数据分析之三重境界

数据分析的软件和工具其实就是用于处理和分析数据的神兵利器,是每个要分析数据的人都需要能够使用的。对于这些软件的使用,可深可浅,只要能够解决问题就行。不过,伴随着软件技能的提升,能够处理问题的复杂度和数据的复杂度也会相应提升。

数据分析的三重境界

对于数据分析,共有三重境界,第一重:眼中有表,心中没表,第二重:眼中有表,心中有表,第三重:眼中没表,心中有表。每一重境界,都含有“表”字,其实这也说明了,这些软件都是把数据进行表格化的操作和处理。基本在每个软件中,数据都是以二维表的形式存在,每一列代表不同的变量即不同的维度,而每一行代表不同的记录即每一条记录了各个维度数据的个体。就这样,在行列之间,各种运算和转换,最终实现了数据分析的功能。

首先对第一重境界眼中有表,心中没表而言,主要是指对数据的基本操作,这些操作都是EXCEL的基本应用,像一些基本的函数计算,例如求和、求平均值等等,以及对数据用简单的图表进行展示。在这重境界中,操作只是集中在眼前表格上,不会有更多的变换和更深层次的结果输出。在日常的工作中,这种境界的操作非常常见,比如计算一个班的一门学科的平均分,只需要把一张记录了这个班学生和单科成绩的二维表,对这表所有成绩求和后除以人数就能得出结果,因此也不需要更多的表格介入进来。

对第二重境界眼中有表,心中有表而言,操作的复杂程度和难度都远远高于第一重,在EXCEL中是对透视表的操作,能够通过各种维度灵活分解和汇总数据,以及能够从多个表格中把数据链接到一起,这种技术在数据库的操作中也非常常见。在这重境界与前一重境界不同于心,尽管眼前的表还是简简单单的一张数据表了,但是心中却不仅仅是这张表,各种表格存在于心,可以依照心中表格对眼前的表格进行各种转换和改造,既可以以当前这张数据表为载体,从多个维度来展示数据,也可以以这张表为核心,匹配其他表格中的数据,以扩展本表的信息,总之只要数据足够,各种花样都能够玩出来。还是以学生成绩为例,一张表包含了学生的姓名,性别、年级、班级,性别,考试科目,成绩等等数据。在第一重层的境界中,只能对所有成绩进行平均以及求和等操作。然而在第二重境界中,就能够按照班级、性别、年级、科目等对考试成绩分类求平均值,同时能够从不同的维度交叉展示,如展示各班分性别展示,各年级分科目展示等等。同时在取得了不同时间的成绩表格后,也能够把个张成绩表上都存在学生单独提出来,在原有维度数据的基础上再匹配出包含时间的新表出来,这样就可以进一步地分时间来展示数据了。

第三重境界是眼中没表,心中有表,这一重境界较前一重不同在“眼”,前两重的境界还需要看着表进行操作,而在这一重境界中则已经脱离了眼前的表格,可以不看表就能处理数据,因而这一重境界也是走向更高水平必须经历的环节,也是成为高手必须到达的阶梯。达到了这一重境界,数据分析的操作能够摆脱EXCEL,使用功能更强大的诸如R、SAS等工具上,通过代码实现EXCEL中对数据的操作。更进一步地,在使用诸如Hadoop等大数据工具上,都需要达到这种境界,将心中需要呈现的表格,通过代码进行实现。第三重境界,重点在心,与前两重相比,需要更高的结构化思维和整体思维,才能准确地把脑海中构想的表格,在工具中实现。

数据分析的三重境界,表面上看是对不同软件应用熟悉程度的区别,而在背后是对数据分析思想的理解以及对数据分析方法的掌握。软件操作学会容易,然后对分析思想和分析方法就需要长期的积累和沉淀。其实,数据分析工作就像睡莲,做出的成果都是浮在水面上的看得到的花朵,而决定花朵是否灿烂的,还是取决于水下的根基和吸取的养分,根基和养分其实就是思想的参悟、方法的理解以及工具的熟练,这些不在一时之快,而在日积月累。

总而言之,数据分析,人可皆会,心之不同里,境界不同,百般变化,在乎一心。

原文转发,功德无量!

上一篇下一篇

猜你喜欢

热点阅读