数据分析模型,你会用多少种?建议你用这28种商业模型和方法武装自
很多转行数据分析,学会一大堆数据分析工具,从Excel到Python,从PowerBI到Pyecharts,但是分析数据还是无从下手。究竟要分析什么,接着分析什么,得出什么结论,常常没有头绪。而且在换工作面试时,除了SQL,问的最多的就是你会什么模型,请你详细解释一下怎么用。
做过功课的,回答PEST模型、SWOT模型、波士顿矩阵、AARRR模型、RFM模型、帕累托模型这些说老掉牙的内容了。不是说它们没用,而是:一、这些东西没什么新意,做数据分析师是干嘛的?就是要你从数据里找出别人不知道的东西,大家都知道还需要你分析什么?毕竟你需要会点别人不会的;二是对不同的行业、不同的公司、不同的发展阶段、不同的场景适用的模型都不一样,你没搞清你要工作的这家公司性质就胡乱说的话反而让人家知道你很“虚”;三是一些模型作为数据分析师身份来说,既没法实际使用,也没机会去用,比如波士顿矩阵、PEST等等。因为这些常常是公司管理层才有资格用,而且他们不是基于数据,更多是基于经验判断。如果你来用,你的结论能可信吗?
说到底还是你的分析知识工具库太少了。当你面对数据的时候,必须能够快速判断可以做什么处理、得出什么结论、结论是否有可信度这样一个分析体系。我们所说的“模型”就是这样一个体系,实际上模型是指对于某个问题或客观事物、规律进行抽象后的一种形式化表达方式,模型分类有很多种,有数学模型、程序模型、逻辑模型、方法模型、数据模型、算法模型、管理模型(来自"MBA智库百科"),而我们这里所说的是“模型”不属于任何一类,对能纳入到数据分析决策中的都是我们需要的模型,主要包括数学模型、数据模型、算法模型、管理模型中的具体模型。
下面将要介绍的是经过实践检验的、适用于数据分析师的模型。本文不会详细解释每个模型的细节,只是企图先搭建一个框架,知道有哪些模型、什么场景下使用、说得清主要环节,后续会一一结合可视化工具PowerBI或Python具体实践。换句话说,你知道的足够多才有优势,具体的用什么学什么就可以了。
接下来从利用数据程度的角度,来介绍28种模型。
第一类,基于理论逻辑的弱数据商业模型
这一类模型来源于市场营销、战略管理领域,是成熟商业公司、咨询公司总结提炼的经典模型。面向对象往往是总裁、CEO,他们对此类模型的认知更加深刻,也只有他们才能推动这类模型结论的实施。对于数据分析师来说,在你的分析过程中可以使用,但是往往需要行业专家的指点,因为这些模型是弱数据支撑型,你没有行业和专业认知得出的结论难具说服力。
1.PEST模型
内容:PEST模型或者PESTEL模型是从宏观角度出发分析企业的主要外部环境因素,应用于公司设立或重大业务转折时期。
使用对象:公司管理层、战略咨询专家、行业分析研究员。
缺陷:该模型角度看似是合理的,但实际上少数几个因素就能决定行业的走向,这些因素影响多大没有客观衡量标准,使用时需要强有力的解释。
2.波特五力模型
内容:这是用于行业战略制定的竞争力分析模型,应用于处于稳定成熟期的公司,无论是提供服务还是产品,此时已占有市场份额,但面临发展威胁。主要来自五种力量:同行业内现有竞争者的竞争能力、潜在竞争者进入的能力、替代品的替代能力、供应商的讨价还价能力与购买者的议价能力。
使用对象:公司管理层、战略咨询专家。
缺陷:该模型更多是一种理论思考工具,而非可以实际操作的战略工具。因为该模型基于制定战略者需要了解整个行业的信息,显然现实中是难于做到的;同行业之间只有竞争关系,没有合作关系。但现实中企业之间存在多种合作关系。
3.SPACE矩阵
内容:SPACE矩阵有四个象限分别表示企业采取的进攻、保守、防御和竞争四种战略模式。这个矩阵的两个数轴分别代表了企业的两个内部因素: 财务态势(financial position,FP)和竞争优势(competitive position,CP);两个外部因素: 环境稳定性态势(stability position,SP)和产业态势(industry position,IP)。这四个因素对于确定企业总体战略地位起决定性作用。
使用对象:公司管理层、战略咨询专家
缺陷:调研打分数据,考察因素固定,如果想灵活变动缺乏理论支持,应用到具体案例很难解释。
4.SCP分析模型
内容:SCP 框架的基本涵义是,市场结构决定企业在市场中的行为,而企业行为又决定市场运行在各个方面的经济绩效。应用在行业或者企业受到表面冲击时,分析可能的战略调整及行为变化。
使用对象:公司管理层、战略咨询专家
缺陷:该框架对行业的假设基本上是静态的,但实际行业发展是随时变化的;需精通行业经验。
5.战略钟模型
内容:战略钟模型将产品/服务价格和产品/服务附加值综合在一起考虑,企业实际上沿着以下8种途径中的一种来完成企业经营行为。其中一些的路线可能是成功的路线,而另外一些则可能导致企业的失败。
使用对象:公司管理层
缺陷:该模型也是竞争战略选择工具,但是比前面几个更好操作,更有针对性,但是数据分析师并不经常用得到。
6.三四矩阵
内容:在一个稳定的竞争市场中,参与市场竞争的参与者一般分为三类,领先者、参与者、生存者。优胜者一般是指市场占有率在15%以上,可以对市场变化产生重大影响的企业,如在价格、产量等方面;参与者一般是指市场占有率介于5%~15%之间的企业,这些企业虽然不能对市场产生重大的影响,但是它们是市场竞争的有效参与者;生存者一般是局部细分市场填补者,这些企业的市场份额都非常低,通常小于5%。这个模型用于分析一个成熟市场中企业的竞争地位。
使用对象:公司管理层、行业研究员
缺陷:由内容可知该模型一般用于分析竞争地位来确定自己接下来战略,仅具有参考价值。
以上这些模型(1-6)都是战略管理类模型,应用对象和使用对象都是特定的,使用要求较高。
7.4P/4C理论模型
内容:4P模型是营销理论模型,即Product、Price、Place、Promotion。取其开头字母,意思为产品,价格,地点,促销。4C模型是从前者(站在企业立场)转到客户立场。
8.波士顿矩阵
波士顿矩阵认为一般决定产品结构的基本因素有两个:即市场引力与企业实力。最主要的是反映市场引力的综合指标——销售增长率,这是决定企业产品结构是否合理的外在因素。企业实力包括市场占有率,技术、设备、资金利用能力等,其中市场占有率是决定企业产品结构的内在要素,它直接显示出企业竞争实力。销售增长率与市场占有率既相互影响,又互为条件:市场引力大,市场占有高,可以显示产品发展的良好前景,企业也具备相应的适应能力,实力较强;如果仅有市场引力大,而没有相应的高市场占有率,则说明企业尚无足够实力,则该种产品也无法顺利发展。相反,企业实力强,而市场引力小的产品也预示了该产品的市场前景不佳。通过以上两个因素相互作用,会出现四种不同性质的产品类型,形成不同的产品发展前景:①销售增长率和市场占有率“双高”的产品群(明星类产品);②销售增长率和市场占有率“双低”的产品群(瘦狗类产品);③销售增长率高、市场占有率低的产品群(问题类产品);④销售增长率低、市场占有率高的产品群(金牛类产品)。
9.GE行业吸引力矩阵
该模型是对波士顿矩阵的改进,应用于投资组合、业务组合的企业经营模型。这个矩阵可以更细化的说明产品所在行业的状况(比如波士顿矩阵中,偏向于现金牛的瘦狗中的产品,并不一定制定撤退战略就是妥善的。并且就算明星业务中,靠上的与靠下的所需要投入的投资比重也是不一样的)。九宫格中一旦企业在左上方三个格,一般情况下采用增长战略,右下方一般采用停止。对角一般采用调整。
10.KANO模型
KANO 模型是对用户需求分类和优先排序的有用工具,以分析用户需求对用户满意的影响为基础,体现了产品性能和用户满意之间的非线性关系。应用于对顾客的不同需求进行区分处理,帮助企业找出提高企业顾客满意度的切入点。根据不同类型的属性特性与顾客满意度之间的关系分为五类:基本(必备)型属性——Must-be Quality/ Basic Quality 期望(意愿)型属性——One-dimensional Quality/ Performance Quality 兴奋(魅力)型属性—Attractive Quality/ Excitement Quality 无差异型属性——Indifferent Quality/Neutral Quality 反向(逆向)型属性——Reverse Quality,亦可以将 'Quality' 翻译成“质量”或“品质”。前三种需求根据绩效指标分类就是基本因素、绩效因素和激励因素。
缺陷:需求会因人而异,要做的是满足目标用户人群中多数人的需求;需求会因为文化差异而不同,如国内的互联网产品比国外的互联网产品要做得好;需求会随着时间变化。昨天的期望型需求,甚至魅力型需求,到今天可能已变成了必备型需求。
以上这些模型(7-10)都是市场、营销模型,当你知道这些模型基本内容和用法,就知道使用模型得知道它的使用背景和定义域,并不是凡是模型就被数据分析拿来用。
接下来这几个模型是数据分析师最常使用,也是最有效的工具模型。说它们是模型,实际是一种方法,它提供了解决问题的思路。
11.SWOT分析法
SWOT分析方法从某种意义上来说隶属于企业内部分析方法,即根据企业自身的条件在既定内进行分析。但是由于它的概念并不限定于企业分析,在解决任何问题都是可以拿来借鉴使用的。它将与研究对象密切相关的各种主要内部优势S(strengths)、劣势W (weaknesses)和外部的机会O (opportunities)和威胁T (threats)等,通过调查列举出来,并依照矩阵形式排列,然后用系统分析的思想,把各种因素相互匹配起来加以分析,从中得出一系列相应的结论,而结论通常带有一定的决策性。
12.逻辑树分析法
把一个已知问题当成树干,然后开始考虑这个问题和哪些相关问题或者子任务有关。每想到一点,就给这个问题(也就是树干)加一个“树枝”,并标明这个“树枝”代表什么问题。一个大的“树枝”上还可以有小的“树枝”,如此类推,找出问题的所有相关联项目。逻辑树主要是帮助你理清自己的思路,不进行重复和无关的思考。
13.5W2H分析法
这种方法又叫七问分析法,用五个以W开头的英语单词和两个以H开头的英语单词进行设问,发现解决问题的线索。可以说是最简单又高效的数据分析方法。
(1)WHAT——是什么?目的是什么?做什么工作?
(2)WHY——为什么要做?可不可以不做?有没有替代方案?
(3)WHO——谁?由谁来做?
(4)WHEN——何时?什么时间做?什么时机最适宜?
(5)WHERE——何处?在哪里做?
(6)HOW ——怎么做?如何提高效率?如何实施?方法是什么?
(7)HOW MUCH——多少?做到什么程度?数量如何?质量水平如何?费用产出如何?
14.麦肯锡七步法
这是麦肯锡公司根据他们做过的大量案例,总结出解决问题的思路,它和5W2H同样是在面对突发状况时最有效的思路。
以上(11-14)四个模型不同于前面的商业模型,而是思维模型。
15.消费者行为模型(从AIDMA、AISAS演变到SICAS)
1.AIDMA法则
AIDMA法则,我们可以理解为,自消费者看到广告信息开始,直至进行消费购买行为的心理引导过程。首先让潜在消费者“注意”到广告信息,并使其感到“兴趣”而持续完成广告信息的接收,然后产生尝试购买或体验的“欲望”,进而使潜在消费者对信息的“记忆”更加深刻,直至“行动”转化成为购买行为。
图片来源于网络
2.AISAS法则
移动互联网时代的到来使大家认识到,需要更加精准有效的获取目标消费者的注意,可以通过用户画像实现兴趣的精细化管理。进而达成,用户向着主动利用搜索引擎探索、行动,并产生价值的分享扩散。而借助移动互联网的崛起,新媒体也成为了整合营销传播中的又一主力媒体渠道。
图片来源于网络
3.SICAS法则
SICAS建立了一套开放式的营销效果评估模型,帮助品牌商家解决“我知道我的广告费浪费了一半,但是却不知道哪一半被浪费了!”,品牌商家首先要基于互联网的产品形态建立全网触点来实时感知消费者行为动态来敏捷指导、评估营销决策,让品牌信息能及时出现在消费者会关心会消费信息的地方,精细化销售效果评估数据精确考核ROI,品牌商家不仅要关注消费者的分享行为,还要参与、引导消费者的分享行为。
图片来源于网络
第二类 基于指标计算组合的数据商业模型
16.用户增长模型(AARRR模型/AIPL模型)
介绍完上面消费者行为三个模型后,再看下面AARRR模型,你会发现很眼熟,这也是现在凡是给你推荐模型的都会说到的用户增长模型,又叫海盗模型、漏斗模型。
2.AIPL模型
说到AARRR模型不得不说网传阿里巴巴所用的电商分析模型AIPL,它也来自上面的AIDMA营销模型的变种。
A(Awareness,认知):品牌认知人群。包括被品牌广告触达和品类词搜索的人。
I(Interest,兴趣):品牌兴趣人群。包括广告点击、浏览品牌/店铺主页、参与品牌互动、浏览产品详情页、品牌词搜索、领取试用、订阅/关注/入会、加购收藏的人。
P(Purchase,购买):品牌购买人群,指购买过品牌商品的人。
L(Loyalty,忠实):品牌忠诚人群,包括复购、评论、分享的人。
17.用户价值模型(RFM模型)
RFM模型是衡量客户价值和创利能力的重要工具和标准,该模型通过一个客户的近期购买行为R、购买的总体频率F和花了多少钱M三项指标来描述该客户的价值。
以上三个指标会将维度再细分出5份,这样就能够细分出5x5x5=125类用户,再根据每类用户精准营销……显然125类用户已超出普通人脑的计算范畴了,更别说针对125类用户量体定制营销策略。实际运用上,我们只需要把每个维度做一次两分即可,这样在3个维度上我们依然得到了8组用户。这样,之前提的四个问题,就能很容易被解读(编号次序RFM,1代表高,0代表低)
重要价值客户(111):最近消费时间近、消费频次和消费金额都很高
重要保持客户(011):最近消费时间较远,但消费频次和金额都很高,说明这是个一段时间没来的忠诚客户,我们需要主动和他保持联系。
重要发展客户(101):最近消费时间较近、消费金额高,但频次不高,忠诚度不高,很有潜力的用户,必须重点发展。
重要挽留客户(001):最近消费时间较远、消费频次不高,但消费金额高的用户,可能是将要流失或者已经要流失的用户,应当给予挽留措施。
18.帕累托模型
很多人都知道世界上20%的人掌握了80%的财富,这就是著名的二八定律,它又叫帕累托法则,还衍生出了ABC分类法。现在主要用于产品分析、库存管理、质量管理。
第三类 基于运筹/统计的强数据数学模型
19.ARIMA模型、GARCH模型
对某一个或者一组变量进行观察测量,将在一系列时刻所得到的离散数字组成的序列集合,称之为时间序列。时间序列分析是根据系统观察得到的时间序列数据,通过曲线拟合和参数估计来建立数学模型的理论和方法。时间序列分析常用于国民宏观经济控制、市场潜力预测等方面。ARIMA模型,是实际案例中最常用的模型。
20.线性规划模型
线性规划模型是指一种特殊形式的数学规划模型,即目标函数和约束条件是待求变量的线性函数、线性等式或线性不等式的数学规划模型。它所描述的典型问题是怎样以最优的方式在各项活动中间分配有限资源的问题。应用于经济分析、经营管理中,为合理地利用有限的人力、物力、财力等资源作出的最优决策。下图中是要找到最佳虚线的表达式来使得实心面积最大,约束条件就是组成实心面积的直线方程。
从实际问题中建立线性规划模型一般有以下三个步骤:1.根据影响所要达到目的的因素找到决策变量;2.由决策变量和所在达到目的之间的函数关系确定目标函数;3.由决策变量所受的限制条件确定决策变量所要满足的约束条件。
第四类 基于机器学习的强数据算法模型
21.线性回归模型(linear Regression,LR)
线性回归是利用数理统计中回归分析,来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。其表达形式为y = w'x+e,e为误差服从均值为0的正态分布。通过最小二乘法或者梯度下降法求解出系数矩阵,从而得到线性回归方程来对新样本进行预测。线性回归模型与线性规划模型有什么区别呢?其实都是在求线性方程表达式,但是应用对象不同、求解目的不同。
上面这个模型表示的是通过图上的数据(过去数据)来拟合一个线性回归表达式,如果给你新的数据x,可以通过这个表达式预测出y是多少。
22.逻辑回归(Logistic Regression, LR)模型
逻辑回归模型是在线性回归的基础上加了一个激活函数SGMOID,使得原本回归求得的结果缩小到(0,1)之间,从而实现分类预测的作用。
从上面左图可以看到深蓝色点代表类别为0,浅蓝色点代表类别为1,虽然我们将这些点画出散点图也通过颜色知道它的类别,但是我们用什么标准还衡量它为什么为0或1呢?如果来了新的点怎么预测他的类别呢?靠直观感受是不行的,因此用数学表达式来作为衡量模型:
第一步,对左边的数据点拟合一个线性回归表达式;
第二步,将表达式整理变换得到z,再将z带入到SIGMOD函数(也叫激活函数)中,得到0到1之间的值,将这个值看作概率,离1越近表示越有可能分类为1,离0越近表示越有可能分类为0。
其实用左图直观感受可知直线上方的点离直线越远,它被分为1或0的证据就越强烈。
23.KNN模型(K个最近邻nearest neighbor)
KNN模型的模型思想可以简单归结为“物以类聚,人以群分”,上面逻辑回归对分类不同的点通过SIGMOD函数来区分。而这个模型则是通过点与点之间距离远近来区分。对上面同一批数据点用KNN来划分:
第一步,先选取n个中心点(一般有多少个类选多少个,当然也可以选择多个,这里选4个),计算所有数据与这四个点的距离;
第二步,将每个距离从大到小排序,越大离这个点近,越有可能跟这个中心点类别相同,我们就把中心点的类别赋值给这个点。但是不是简单通过一个中心点判断,你可以选择K个离它最近的中心点,采用投票法或平均法得出它的类别。
上面的图表名,KNN把大部分点都能分对,但是对处于两圆交界或者异常点区分能力很差。所以在实际分类建模时一般效果不如逻辑回归。
24.贝叶斯模型(Bayes)
这是来自统计学的数据分析模型,基于著名的贝叶斯定理。在我们日常做决策的时候,往往都会有这样一种感觉,当我对问题一无所知的时候,对做决策毫无把握,全靠猜,但是给了你一些信息之后,你对某个答案的把握就大一些。但是怎么衡量你的把握大小呢?贝叶斯定理说的就是你这个做决策过程的量化。
这个模型没有明确的表达形式,它依据的就是图上的贝叶斯定理公式。它主要应用于随机变量x,y为离散型变量。
25.SVM模型(支持向量机,support vector machine)
这是来自数学领域的数据分析模型,是计算复杂度、理解复杂度都很高的模型。
与线性回归一样,都是求出一条直线作为分割线,但是这个表达式的求解不是用线性回归的方式,这里的系数(1.088,-1)也是错误的,实际是未知的,可以用(a,b)代替;它也像线性规划问题,需要同时满足约束条件才能求出系数,但是又不是简单的线性约束。
那它是怎么求出这个表达式的系数(a,b)呢?,实际上是通过计算离分割线最近的点,使得这些点到分割线的距离之和最大,上面的图可以看到计算点到直线的距离就是关于系数(a,b)的函数。为什么要使得这些点到分割线的距离之和最大?这些点是哪些点?
上面这张图可以看到,从分割线1到分割线3,随着分割线的不断移动,点到直线的距离之和越来越小(图上可能不直观但是实际计算可知),但是分类的错误数却是在增加的,这说明在这个二维平面上有很多可以将这些点分隔开的线,但是把点尽可能多的分开的线只有一条,那就是点到直线的距离之和最小的直线,而这些点叫支持向量,它们是在计算过程中不断迭代找到的。
实际上后面的求解过程还很复杂,在这里无法一一解释清楚,感兴趣的可以进一步了解。通过与前面几个分类模型相比,你也可以看到它不仅找出分割线,还力求找到最佳的那一条,因此它在深度学习模型研究大火之前是最佳数据挖掘模型之一。
26.决策树模型(decision tree,DT)
决策树模型的使用的原理跟贝叶斯定理很像,但是它使用的不是条件概率而是条件经验熵,它也不是像贝叶斯模型那样一次性求出所有条件概率乘积,得到结果为1的概率和结果为0的概率,两者相比较,而是一步一步筛选哪些条件是最有效的,其次是哪个,无效的条件就丢掉,这样既提高准确率,也提高效率。这跟我们的决策行为也是相符的,虽然我们从一无所知到知道一些信息,但是对这些信息也需要加以甄别,哪个是对结论支持最有力的证据才使用哪个。
可以看到决策树模型和之前的决策树七步法思考方式有相似性,都是一步一步判断得到最终结论,但是前者是感性判断,这里是通过数值计算。
27.集成学习模型(ensemble learning,EL)
集成学习模型实际上不是具体算法,而是一种策略,是在前面几种模型基础上集合而成的,前面都是单个模型,而集成学习就是将多个单模型放在一起进行分类预测。俗话说就是:“三个臭皮匠定个诸葛亮”。一个单模型可能预测不准,但是多个模型通过投票或者平均,就能提高分类准确率。集成模型也是在深度学习模型研究大火之前是最佳数据挖掘模型之一。
28.神经网络模型(neural network,NN)
神经网络模型源自计算机科学家对生物学领域的神经网络得到的启发,人类大脑有着复杂的神经网络,每个神经元连着很多神经,当脑子有一个想法会产生电信号,电信号在神经中传导到达神经元经过神经元细胞的处理转化得到另一个信号再通过神经网络传给下一个神经元,这样一层一层传递就能调动身体各部分配合来完成动作。
因此,神经网络把每个因素(又叫特征、随机变量,就是前面例子说的x,y)当做电信号,系数矩阵当做传导神经,激活函数当做神经元。如下图:
可以看到三层神经网络跟逻辑回归模型很像,可以把逻辑回归模型看作是单层神经网络来理解,多层神经网络就是不断增肌神经元,扩大系数矩阵。逻辑回归模型我们是要得到一个系数a和偏值b,但是我们要得到的神经网络模型,就是得到很多个a和b,叫做系数矩阵W,有了系数矩阵W就固定了表达式形式。神经网络模型的形式是曲线。不像线性回归,它可以更好的拟合所有数据,从而达到更准确的分类。
如果要枚举所有模型,那是不现实的,数据分析和挖掘还有很多模型可用,这里只是列举了常见的28种。对于初学者来说足够了,也可以作为参考,随时查看。
最后总结一下:
第一类,基于理论逻辑的弱数据商业模型,可以在分析内外部因素时使用,更多偏重理论和思维。
第二类,基于指标计算组合的数据商业模型,用在具体的用户、产品方面的分析,使用简单又有理论支持。
第三类,基于运筹/统计的强数据数学模型,这类模型使用约束条件严格,往往效果不会太好,用于销量预测、成本控制。
第四类,基于机器学习的强数据算法模型,这类模型常常用作回归和分类预测,完全基于数据计算得出结论,数据量大和质量好会得到很有效的结论,是现在使用越来越多的模型。
最后欢迎大家关注我,我是拾陆,搜索公众号“二八Data”,更多技术干货持续奉献。