频繁模式挖掘(关联规则挖掘)-Apriori方法
2018-04-27 本文已影响26人
LeeMin_Z
一句话总结:通过算概率,层层挖掘出的商品(元素)组合。
内容
- 关联规则基础
- Apriori方法
1. 关联规则基础
-
需要的数学知识
概率:简单概率,联合概率,条件概率
集合:并集、排列组合 -
什么是关联规则
关联规则是发现交易数据库中不同商品(项)之间的联系
- 这些规则找出顾客购买行为的模式。 如购买了某一商品对购买其他商品的影响
- 发现这样的规则可以应用于商品货架设计、存货。 安排以及根据购买模式对用户进行分类。
- 基本概念
- 可信度和最小可信度
购买x1,x2,…, xn 的情况下购买Y的可能性, 条件概率 - 支持度和最小支持度
同时购买x1,x2,…,xn 和Y的可能性 - 频繁项目集
满足最小支持度的项目集
- 支持度和可信度计算
- 支持度:(并集的概率)
support (A --> B ) = P(A∪B) - 可信度:(条件概率)
confidence (A --> B ) = P(B|A)
- 计算支持度和可行度的一个例子
例如第一行的A-->D,
支持度:有五个购物篮,分母是5;购物篮中含有A和D的有两个,所以分子是2。支持度是2/5
条件概率:在有D的情况下,A出现的概率是多少。D出现的次数3是分母;此情况下A出现次数是2为分子。计算得到可信度是2/3
-
因果关系
定因和果,不好确定。
一个例子: 如果商店降低尿布的价格而升高啤酒的价格,则会吸引尿布购买者,而这些购买尿布的人同时很可能会购买啤酒,这样商店在尿布上遭受的损失就会从啤酒中得以弥补,这是因为“尿布是因,啤酒是果”。相反,如果降低啤酒的价格而升高尿布的价格,买啤酒的人多了但买尿布的人并不会增多,商店就赔本了。 -
频繁集合公理
- 公理:如果一个项目集S是频繁的(项目集S的出现频度大于最小支持度s),那么S的任意子集也是频繁的。
- 怎么用:一般是反过来,如果某个集合A的所有(任意)子集都是频繁子集,那么A也是频繁集。
- 如何挖掘关联规则
通常被分解为两个子问题,第二个问题比较简单,关键是解决第一个问题。
(1) 根据用户输入的最小支持度,寻找频繁项目集
(2) 根据用户输入的最小可信度,产生关联规则
2. Apriori算法
-
步骤简述:
a. 寻找频繁项目集
分层次计算每个子集的出现频度,筛选出符合条件的子集。然后根据频繁集合公理,筛选出下一层的频繁集合。
b. 产生关联规则 -
寻找频繁项目集的步骤
a. down-top,由底向上分层。宽度优先。
b. 第一层:包含全部元素,并且集合模式为单元素子集。
b. 第二层:由第一层的元素配列组合为新的集合,筛选出符合规则的集合。
c. 第三层:根据公理,寻找所有子集均是频繁集合的新并集。
d. 第四/n层:同上
- 一个例子,设出现次数大于2的集合为频繁集合。
参考资料:
- 中国大学MOOC,人大 数据库系统概论(新技术篇) 第六讲,频繁模式挖掘
2018.4.27