优达学城-商业数据分析

5

2017-11-29  本文已影响20人  吃虫的胜仔

1、解决商业问题:

“下个月我们将与一位新客户开展一项大型交易,我们要以优质的服务水平为他们提供支持。我需要知道每周平均会从此客户获得多少工单,

以确保帮助台有足够的资源。”

需要作出那些决策?

销售经理需要做出的决策是:“我们的支持团队是否有足够的能力来处理新客户的支持工单?”以及“如果没有,我们需要向支持团队添加多少          人员,来处理新客户的支持工单?”

需要获得哪些信息,来做出这些决策?

我们需要计算每个客户每周的平均工单。然后,我们可以合计每个客户的平均工单数,以获得预期的每周提交的平均支持工单数。有了此信

息后,我们需要将预计的平均工单数与支持团队的当前能力进行比较,特别是确定每位团队成员可处理的平均工单数。

什么类型的分析能够获取决策所需的信息?

我们使用方法图(Methodology Map)流程图来帮助我们确定应该执行的分析类型,以提供做出决策所需的信息。我们想要预测一个新客户

每周将提交的平均工单数。因此,我们想要的是预测结果,这很简单。

2、数据理解解决方案:

选择适当的方法

第 1 步:这是一个数据丰富还是数据不足的问题?

我们来回忆一下数据丰富与数据不足之间的差别。如果我们拥有关于所要预测的变量的以往数据,则是数据丰富,否则是数据不足。 要

确定我们是数据丰富还是不足,需要对数据有更好地理解。看看我们的数据集,可以看到我们有每位客户的以下信息:

每位客户每周提交的平均工单数

每位客户的员工数

与每位客户的合同价值

每位客户所处的行业

由于我们有每位客户的工单数,所以说我们是数据丰富的。

第 2 步:我们应该使用数值型还是分类模型?

我们尝试预测的目标结果是一个数字,代表每位客户预期的平均工单数,因此我们应该使用数值型模型。

第 3 步:我们的目标变量是连续型还是基于时间型?

我们要获得的是每周的平均工单数。因此乍一看,我们可能会认为这是一个基于时间的问题,如果我们希望预测几周时间内每个日历周的

特定数量,则确实是这样。但是在这个问题中,我们只想要每周的平均数,对特定的日历周不感兴趣。因此,我们将使用连续型模型来解

决我们的问题。

3、线性回归(linear regression):【线性回归拓展阅读:如果你需要温习斜截式 (y = mx + b),请阅读此篇短文。】

假设我们有散点图(scatter plot)中显示的数据。看起来员工数量与工单数之间存在线性关系。这种关系是线性的,因为我们似乎可以画一条

穿过数据的直线。

y = mx + b

Y = 目标变量

X = 预测变量

m = 直线斜率

b = Y 轴截距

目标变量

(Y值)

目标变量是我们尝试理解和预测的变量,也称为因变量。在我们的例子中,我们在尝试预测 Y 值或平均工单数。

预测变量(X值)

预测变量用于尝试预测目标变量,也称为自变量。在此示例中只有一个预测变量 X 或者说员工数量。它用于预测工单数。

m=直线斜率,在excel中使用函数:=SLOPE(data_y, data_x) 求出斜率

b=Y轴截距,在excel中使用函数:=INTERCEPT(data_y, data_x) 求出截距

线性回归验证:【拓展阅读:相关性R 平方

第一步:相关性

使用函数:=CORREL(data_y, data_x),可以计算目标变量和预测变量之间的相关性。称为“r”,“r”范围为-1到+1。

“r”越接近-1或者+1,x和y之间的相关性越高。

第二步:计算R平方

通过计算决定系数(coefficient of determination)或 R 平方(记为 R² 或 r²),来了解此公式在逼近数据方面的表现有多好。R 平方是取值

在0 和 1之间的一个系数。R 平方可以解读为,模型解释的观察值变差的百分比,或模型的解释力。R 平方接近 1 意味着模型解释了目标变量的

几乎所有变差。R 平方接近 0 意味着模型几乎未解释目标变量的任何变差。(注:目标变量 y 的取值波动称为“变差”)

函数公式:=RSQ(know_y's,know_x's)

解读R平方注意事项:【拓展阅读:此处

如何解读 R 平方在很大程度上取决于你要建模的问题和你使用的数据。对于棘手的问题,R 平方很低可能是可以接受的。而且,较高的                  R 平方也有可能由于模型不佳导致的。但是一般来说,R 平方越高越好,特别是当你添加和删除预测变量来决定最强的预测模型时。

4、多元线性回归(Multiple Linear Regression):【拓展阅读:创建分析数据集

y=b0+b1x1+b2x2+.......

b0:截距或者基线值

b1,b2,b3是x1,x2,x3的系数

初始步骤:准备和了解你的步骤

给定的任何数据集,我们必须确保数据是干净的,没有偏差(bias)。

理解每个预测变量和目标变量之间的关系。我们可以通过绘制每个预测变量和目标变量之间的散点图来直观地做到这一点。

(通过绘制每个预测变量和目标变量之间的散点图,来确认预测变量和目标变量是否存在线性关系)

Excel 中的多元线性回归步骤:

第 1 步

确保在 Microsoft Excel 中激活 Analysis ToolPak 加载项。你可以在此找到说明。

第 2 步

在 Excel 中,选择“数据分析”(Data Analysis)。在弹出窗口中选择“回归”(Regression),然后选择确定。

第 3 步

输入 Y 范围应该为目标变量的范围,在这个例子中即平均工单数。输入 X 范围应为预测变量的数据范围,在这个例子中即员

工人数和合同价值,    因为它们都表现出与平均工单数存在线性关系的可能。

第 4 步

点击确定运行模型并查看结果。我们可以快速看到线性方程的系数,结果为:

Y = -24.2667 + 0.1019 X1 + 0.00067 X2

其中 X1 为员工数量,X2 为合同价值。

R 平方与调整的 R 平方(Adjusted R-Squared)【拓展阅读:在此】(R平方是用来判断单个变量模型相关性,调整的R平方是用来判断多个变                                                                                                                                 量模型相关性的)

链接文章中的“解释变量”(explanatory variables) = “预测变量”(predictor variables)。

调整的 R 平方应该被用于多元线性回归,因为在模型中添加额外变量时出现了一种现象。简而言之,包含的变量越多,

R 平方越高 —— 即使附加变量和目标变量之间没有关系。因此,我们使用调整的 R 平方。

5、非数值型预测变量的线性回归(分类预测变量):

转换分类变量(将非数值型变量通过虚拟变量转化为可运算的数值型变量)

在回归中使用分类变量的一个更好的方式,是使用所谓的虚拟变量(dummy variables)。虚拟变量只能取两个值,

一般是 0 或 1。你可以添加比分类变量中唯一值数量少一个的虚拟变量数。所以,如果变量是二元的,则添加一个虚拟变量。

如果有四个类别,则添加三个虚拟变量。

回到我们的例子,现在我们使用虚拟变量来表示分类变量 region(区域)。要表示西部、中西部、东北和东南部四个类别,

你需要添加三个虚拟变量。我们为中西部、东南部和西部各创建一个。

Expenditures = β0 + β1 Avg_Income + β2 Pct_Under_18 + β3midwest+ β4southeast+ β5west

每个虚拟变量取值 1 或 0。如果一个州位于东南部,则东南(southeast)变量的值为 1,而其他两个变量为 0。

我们没有为东北创建变量。这是因为方程需要一个没有编码成虚拟变量的基准值。如果一个州位于东北部,则所有三个虚拟变量的值都将为 0。

你创建的虚拟变量数要始终比类别数量少一个,以确保一个类别表示为虚拟变量全部为 0。

在此例子中这一个类别是东北部,成为其他类的对比类别

6、解释线性回归结果:

解释回归结果

以下是线性回归结果。几乎任何回归工具都会类似地报告结果。不要被数字的量级吓到;我们将演示最重要的值以及如何解释和应用它们。

有三个值尤其重要:系数估计值(coefficient estimates)、p 值(p-values)和R 平方。

系数估计值(coefficient estimates)

还记得我们的回归方程 Y = B0+B1X1+B2X2…吗?这些系数是 B 的估计值。它们代表每个预测变量与目标变量之间的关系的大小。

例如,员工人数的系数指在其他所有变量保持不变的情况下,每增加一名员工,将增加约 0.1 工单。一个更简单的思考方式是,

我们可以预期,每 10 名员工将产生 1 张工单。

P 值(P Value)

Thep 值是观察结果(系数估计值)偶然发生的概率,并且预测变量与目标变量之间没有实际关系。换句话说,p 值是系数为零的概率。p 值越低,预测变量和目标变量之间存在关系的概率就越高。当 p 值较高时,则不应该依赖于系数估计。当预测变量的 p 值低于 0.05 时,其与目标变量之间的关系被认为具有统计学意义。

统计显著性(Statistical Significance)

“统计显著性是一种不可能随机发生的结果,而是很可能归因于某个具体原因。” ——投资百科

除 p 值外,右边的星也表示具有统计显著性。星 (*) 越多表示显著性越高。在我们的例子中,我们看到预测变量是显著的,其中员工人数和合同价值是最显著的。通常,我们要从模型中删除不能统计显著地预测目标变量的变量。

R 平方

在我们的例子中,R 平方为 0.9651,调整的 R 平方为 0.9558。因此,我们通过增加类别改进了模型。在现实问题中,我们可能会使用不同的预测变量运行模型,或者看看我们是否有额外的信息添加到模型。

记住,R 平方的取值范围为 0 到 1,表示由预测变量变化解释的目标变量的变化量。R 平方越高,模型的解释力就越高。

既然我们有一个较强的模型,便可以进行分析了。

评估方程案例:

回到我们的问题 —— 以下是我们拥有的额外信息:

新客户有 732 名员工,合同价值为82.5 万美元,属于服务行业。

你的公司目前拥有 23 名服务台员工资源,每位员工每周可处理 125 张工单。

服务台目前接收的平均工单数为每周 2800 张。

为了便于参考,这里是来自我们最后一页线性方程的系数:

截距:-18.45

员工数:0.1116

合同价值:0.0004858

行业 - 制造业:0

行业 - 零售业:-8.725

行业 - 服务业:12.49

(转换分类变量为虚拟变量,在这里分类变量是行业,分别是:制造业、零售业、服务业,这里我们可以添加两个虚拟变量

在此题中设置为:制造业:0、零售业:0、服务业:1)

解答过程:

评估方程的步骤

使用线性回归模型的系数来确定新客户的预期工单数。

平均工单数 = 732(0.1116) + 825000(0.0004858) +12.49- 18.45(计算过程中一定要统一单位)

平均工单数 = 476.52 所以我们可以假定将从新客户收到额外 477 张工单。

接下来,确定公司的处理能力。

拥有 23 名员工,每名员工每周可处理 125 张工单

可处理的总工单数为 23*125 = 2875。

因此,服务台每周可处理 2875 张工单。

现在,我们需要确定我们是否有足够的处理能力,或者是否需要增加员工资源。

我们目前每周收到 2800 张工单。

我们目前每周的过剩能力为每周 75 张工单。

新客户每周需要 477 张工单的支持,所以我们没有足够的能力支持新客户。

我们需要足够处理每周 402 张额外工单的员工资源,或者 402/125 = 3.216 个员工资源。

因此,我们还应增加 4 个额外员工资源。

课程概括

一、解决商业问题的策略:

1、理解问题的重要性

2、分析的必要性,决策将会受到分析的影响,需要数据去支持分析结果

3、提前花时间去理解问题和可用数据有助于确保分析的质量

二、非预测性分析技巧:

三、不同类型的预测模型,使用方法图来帮助决定哪一种模型最适合特定的商业问题。

上一篇下一篇

猜你喜欢

热点阅读