第九章数据关联规则分析算法——基于Apriori算法的关联项分

2019-11-06 本文已影响0人文颜

9.1 基于Apriori算法的关联分析

Aprior算法是关联规则分析中较为经典的频繁项集算法。关联规则反映的是两个或多个事物相互之间的依存性和关联性。如果两个或者多个事物相互之间存在一定的关联关系，则它们之间存在一种关联规则使得它们之间可以进行搭配。

9.1.1 基本概要

Apriori算法利用频繁项集的先验知识，不断地按照层次进行迭代，计算数据集中的所有可能的频繁项集，它的分析主要包括两个核心部分。

1、根据支持度找出频繁项集；

2、根据置信度产生关联规则。

9.1.2 Apriori算法原理

基本流程：

1、扫描历史数据，并对每项数据进行频率次数统计。

2、构建候选集 $C_{1}$ ，并计算其支持度，即数据出现频率次数与总数的比。

3、对候选项集进行筛选，筛选的数据项支持度应当不小于最小支持度，从而形成频繁项集 $L_{1}$ .

4、对频繁项集 $L_{2}$ 进行连接生成候选集 $C_{2}$ ，重复上述步骤，最终形成频繁K项集或者最大频繁项集。

Apriori算法存在两大定理：

1、如果一个集合是频繁项集，那么它的所有子集都是频繁集合。

2、如果一个集合它不是频繁集合，那么它的所有超集都不是频繁项集。

9.1.3 Apriori算法优缺点

优：运算过程非常简单，理论方法也比较容易理解，对数据特征的要求也相对较低。

缺：

1、产生候选集是产生较多的组合，没有考虑将一些无关的元素排除后再进行组合。

2、每次计算项集的过程中都会扫描元素的数据表。

针对不足推出不断改进的Apriori算法：

1、将数据表（事务表）进行压缩。

2、利用哈希表的快速查找特性对项集进行计数统计。

3、合理选样。

第九章 数据关联规则分析算法——基于Apriori算法的关联项分