4
非预测性分析(Non-Predictive Analysis):
地理空间分析(Geospatial Analysis)
这种类型的分析使用基于地理位置的数据来推导结论。例子有:通过地理区域识别客户,计算店铺之间的距离以及根据客户位置创建交易区域。
细分分析(Segmentation Analysis)
细分是将数据分组的过程。分组可以是简单的,比如购买不同东西的客户,也可以是复杂的,比如根据客户的人口特征统计来识别相似的店铺。
聚合分析(Aggregation Analysis)
此方法用于计算跨组或跨维度的数据,在数据分析中很常用。举例来说,你可能想要某个销售员的月度销售汇总,将其每个月的销售额相加即可。然后,你可能需要跨维度进行汇总,比如各销售领域的月度销售
汇总。聚合通常用于报告,以达到划分和区别信息的作用,有助于管理层制定决策和观察表现。
描述性分析(Descriptive Analysis)
描述性统计可提供一个数据样本的简单概括。比如说计算一所学校申请者的平均 GPA,或者计算一个职业棒球员的击球平均水平。在我们的电力供应案例中,我们可以使用描述性统计来计算每小时、每天或某一
天的平均温度。
一些常用的描述性统计包括平均值、中位数、众数、标准方差和四分位差。【描述性统计学参考资料:https://cn.udacity.com/course/intro-to-descriptive-statistics--ud827】
预测商业问题:
数据丰富(Data Rich) vs 数据不足(Data Poor)
数据不足的商业问题:
数据不足的情况下就要构建一个实验来帮助我们得到想要的数据。给出特定商业情景的实验通常指的是A/B测试。
数据丰富的商业问题:
数值型(Numeric)vs非数值型(Non-Numeric)预测分析
回归模型(Regression Models)【目标变量是数值型】
数值型结果是那些用数字表示的结果。
目标变量(Target Variables)
目标变量代表需要预测的结果。为了选择正确的预测模型,我们首先要确定目标变量是数值型还是非数值型。让我们先从数值型变量开始。
数值型变量(Numeric Variables)的种类
三种最常见的数值型变量是连续型、基于时间型以及计数型。
连续型(Continuous)
连续型变量能包含一个范围内的所有数值。打个比方,你的身高能测量到多个小数位的精度,我们不会以每英寸的间隔成长。
基于时间型(Time-Based)
基于时间的数值型变量是预测在某一段时间内会发生什么的一种变量,常常与“预报”有关。
计数型(Count)
计数型变量是离散的正整数。它们被称为计数数字是因为被用来分析能够计数的变量。在商业中这类型的变量并不常见
分类模型(Classification Models)【目标变量是类型】
非数值型结果是那些我们要预测案例或客户所属类型的结果,比如客户是按时付款、延期付款还是拖欠贷款。
另一个例子是:某电子设备是否会在 1000 个小时内出故障。预测非数值型数据的模型被称为分类模型。
二元和非二元(Binary and Non-Binary)【拓展阅读:Ben Burkholder 有一门讲解分类模型的课程,将深入探讨这些不同种类的模型。】
二元:
当给分类变量建模时,可能的结果数量是一个重要参数。如果只有两种可能的分类结果,比如是和否,或者对和错,那么这个变量就被称为二元变量。
非二元:
如果有多于两种的分类结果,比如小、中、大或者按时付款、拖延付款、拖欠付款,那么该变量就被称为是非二元变量。这节课的重要内容是要能够决
定是否使用分类模型以及是否应该使用二元模型或非二元模型。
错题:
提示:因为咖啡连锁店没有关于新产品电视广告的影响的数据,他们需要用 A/B 测试来预测电视广告的影响。