频繁模式挖掘(关联规则挖掘)-Apriori方法

2018-04-27  本文已影响26人  LeeMin_Z

一句话总结:通过算概率,层层挖掘出的商品(元素)组合。

内容

  1. 关联规则基础
  2. Apriori方法

1. 关联规则基础

  1. 需要的数学知识
    概率:简单概率,联合概率,条件概率
    集合:并集、排列组合

  2. 什么是关联规则

关联规则是发现交易数据库中不同商品(项)之间的联系

  1. 基本概念
  1. 支持度和可信度计算
  1. 计算支持度和可行度的一个例子

例如第一行的A-->D,
支持度:有五个购物篮,分母是5;购物篮中含有A和D的有两个,所以分子是2。支持度是2/5
条件概率:在有D的情况下,A出现的概率是多少。D出现的次数3是分母;此情况下A出现次数是2为分子。计算得到可信度是2/3

sample-1.png
  1. 因果关系
    定因和果,不好确定。
    一个例子: 如果商店降低尿布的价格而升高啤酒的价格,则会吸引尿布购买者,而这些购买尿布的人同时很可能会购买啤酒,这样商店在尿布上遭受的损失就会从啤酒中得以弥补,这是因为“尿布是因,啤酒是果”。相反,如果降低啤酒的价格而升高尿布的价格,买啤酒的人多了但买尿布的人并不会增多,商店就赔本了。

  2. 频繁集合公理

  1. 如何挖掘关联规则
    通常被分解为两个子问题,第二个问题比较简单,关键是解决第一个问题。
    (1) 根据用户输入的最小支持度,寻找频繁项目集
    (2) 根据用户输入的最小可信度,产生关联规则

2. Apriori算法

  1. 步骤简述:
    a. 寻找频繁项目集
    分层次计算每个子集的出现频度,筛选出符合条件的子集。然后根据频繁集合公理,筛选出下一层的频繁集合。
    b. 产生关联规则

  2. 寻找频繁项目集的步骤
    a. down-top,由底向上分层。宽度优先。
    b. 第一层:包含全部元素,并且集合模式为单元素子集。
    b. 第二层:由第一层的元素配列组合为新的集合,筛选出符合规则的集合。
    c. 第三层:根据公理,寻找所有子集均是频繁集合的新并集。
    d. 第四/n层:同上

Astep1.png
  1. 一个例子,设出现次数大于2的集合为频繁集合。
sample

参考资料:

  1. 中国大学MOOC,人大 数据库系统概论(新技术篇) 第六讲,频繁模式挖掘

2018.4.27

上一篇 下一篇

猜你喜欢

热点阅读