大数据100天自学大数据大数据,机器学习,人工智能

写给初学者:一个通用的数据分析模型

2020-04-23  本文已影响0人  金哥数据分析

说起数据分析,很多人觉得知识很庞杂,学起来也很乱。本文集合实际工作经验,试图找到一个通用的数据分析模型,并在分析思维的每个步骤中介绍相关的分析算法及其应用场景。让初学者能够快速理清分析思路,在实际工作中比较方便的套用。

本文主要针对初级数据分析人员或者面对数据还不知道如何下手的读者,经验丰富的数据分析师们可以跳过。

数据分析前提提要(常见且容易忽视的3点):

一、没有业务,哪来数据

数据是在业务运行过程产生,因此没有业务就没有数据分析。但我们平时一开始拿到的可能就是数据,很容易一上来就开始分析,对数据背后隐藏的各种业务容易忽略。其结果是分析半天却得到了错误的结论。例如当我们分析一个店铺的销售数据的时候,看到店铺的客户回头率极低,如果你不了解这个店是开在火车站的,你会错误的以为这个店有问题。对于业务深入的了解,有助于更好的调整分析的维度,快速找到问题和原因。

二、无的放矢,华而不实

初学者可能会以为数据分析就是用很牛x的算法模型和很漂亮的可视化,往往把数据分析的目的忽略了。数据分析的目的是帮企业发现问题,为决策提供支撑。例如:老板让你做店铺的数据分析,他不是想看到一堆算法和图表可视化,而是想通过数据发现一些可以提高销售的方法,对吧。所以在分析之前,一定要明确自己分析的目的,避免只是算法和可视化的堆砌。

*三、数据探索

大家有没有听说过数据探索,因为每一个业务,每一份数据像每一个人一样,都是不一样的。任何人都不可能从一个方面就给他定性,你不能简单的说谁是好人,谁是坏人,数据也是一样的,数据探索的目的其实就是用一种不那么循规蹈矩的方法从各个侧面去发现数据的价值,不用拘泥于前人的结果,也许你会发现别人没有看到的价值。

一个标准数据分析思维方法和模型:

What 它是什么?

任何数据分析,第一步都是要描述数据,而且是清楚的描述数据。比如现在有个人叫 小A,你说有个人叫 小A,是不是就不够清楚;比如你说,有个人叫小A,他是一个学霸,每次都得100分,是不是清晰起来了;现在你说,有个人叫小A,他是一个学霸,每次都得100分,身高180,长的很帅!兴趣是不是就提起来了。接下来看看那些方法可以描述数据:

1、描述性统计

最基础的就是统计,简单有效,我们可以结合图表很快能对数据有第一映像。常用的统计包括平均数、最大,最小值、中位数、方差、类型占比、统计分布,4分位等等。


可视化

2、聚类模型

分类思维是一种很重要的思维,“物以类聚,人以群分”。比如我们常常把客户分为:忠诚客户,普通客户,游客;针对每一类客户采取不同的运营方法。那如果我们拿到的数据里没有这个分类信息怎么办呢?在数据科学中有一种模型叫聚类模型,可以自动的将数据聚集到若干类下,完成自动分类。常见的聚类算法有,K-Means(K均值)聚类,基于密度的聚类(DBSCAN)等。


聚类

3、特征工程

最后介绍最高大上的:特征工程。初学者听起来可能会一头雾水,其实举个例子就很好理解, 比如现在我们要做文章的分析,如果把每一个词语都拆成1个属性,那一篇文章的属性就特别多(好几千)。但是却完全没法用,特征工程就是在一大堆不能直接使用的属性基础上通过算法做特征提取,针对文本的数据,可用文本的TF-IDF算法,将文章的关键词和权重提取出来,这样就有意义多了。其他的特征工程模型包括:线性的PCA(主成分分析)、LDA(线性判别分析)、ICA(独立成分分析),图像的HOG、LBP等。

What 它发生了什么?

平时我们做数据分析的前提,往往是发生了什么具体的问题?人工又找不出原因,或者人无法100%的确信原因,需要通过数据分析来证明或找到。比如:老板有一天突然说,咱们上周的销售量怎么下下降了50%,怎么回事?这就是一个很具体事件或问题。

当然,发生的事情有好有坏,比如:也可能是上周销售突然增加了50%,要找到原因,看看该给谁发奖金。总之,数据分析的目的总是来自于发生的问题。

Why 为什么发生?

面对问题,数据分析的任务就是找出原因?也就是为什么会发生,精确的问题诊断有利于正确的决策。一般可以用到以下的方法:

1、对比法

对比是很常用很有效的分析方法。在销售数据的这个案例中,我们可以对比上一周和再上一周;也可以对比去年同一时期的数据。也许每年的相同时间都会发生这样的现象?

对比法的核心就是尽量寻找多个条件相同的情况,看看不同的条件是什么,就是可能引起问题的原因。

2、树形思维

那么如果对比没有发现任何问题呢?那就需要逐层的进行分析,比如在我们的店铺销售数据中,影响销售额的可能有哪些因素呢?我们从销售渠道的纬度这一层做一个分析,销售渠道分为线上和线下两种。
这样,我们就把原本一个总的量变成了线上和线下两个量,这个时候分析的方向显然更加的明确。依次类推,我们还可以继续进行分层,知道找到原因。


树状思维

3、相关分析

相关分析是大家熟悉的一种分析方法,对不同特征或数据间的关系进行分析,发现业务的关键影响和驱动因素。我们只知道销售额的变化是不够的,我们需要找到的是影响这个量的最大因素是什么?举个例子,某个公司的销售很依赖销售人员,上个月一个王牌销售离职了,有没有可能导致销售额大幅下降?相关分析常用的方法有协方差、相关系数等,相关系数表示了两个变量有关系。

Then 它还会发生什么?

知道了问题的原因,还需要有能力预测接下来的数据,预测的算法有很多,当然不同的场景预测难度是不一样的,比如只是预测:下个月的销售额,用基本回归模型就可以。但是要预测:下个月每类商品的库存,并提前备货,就难的多。

分类和回归模型

分类与回归模型都是基于已知的大量数据构建一个函数f,使得y=f(x),这个f对于已知数据当然是很友好的,这样我们就可以尝试对于未知的x,通过f预测y。举例,我们已知很多西关的属性和西瓜好坏的数据,我们可以用逻辑回归和决策树的模型,来帮我们自动做西瓜分类;更复杂一点的,例如我们有一堆图像,想要自动识别哪些是阿猫,哪些是阿狗,我们可以先对图像进行人工标注,然后用支持向量机模型来预测新的图像是哪一类

之前说的销售量预测,在数据是相对线性的情况下可以用线性回归来做预测。

以上就是初学者可以了解的一个通用的数据分析过程和模型选择

自学数据分析请加微信,拉你进自学群哦(培训勿扰)


自学
上一篇 下一篇

猜你喜欢

热点阅读