数据挖掘算法之关联规则挖掘

2017-09-22 本文已影响0人呼啦啦葱

关联规则挖掘的概念

在事务，关系数据库中的项集和对象中发现频繁模式，关联规则，相关性或者因果结构。

频繁模式：频繁出现的项集

通俗一点讲就是从一堆经常发生在一起的事情中，找出他们之间的关联性。

举个啤酒和尿布的例子，商场统计发现啤酒和尿布频繁出现在同一张订单中，我们就可以挖掘出啤酒和尿布之间的关联关系。比如买啤酒的人很大概率会买尿布，或者买尿布的人很大的概率会买啤酒。

项集

包含0个或多个项的集合，比如｛牛奶，面包，尿布｝

k－项集：集合中项数目为k的项集，｛牛奶，面包，尿布｝这就是一个三项集

支持度计数

比如现在有一些事务集合

编号事务

1 面包，牛奶

2 面包，尿布，黄油，鸡蛋

3 牛奶，尿布，黄油，可乐

4 面包，牛奶，尿布，黄油

5 面包，牛奶，尿布，可乐

｛牛奶，黄油｝的支持度计数就是2，因为｛牛奶，黄油｝在编号3，4的事务中出现，计数次数就是2

所以支持度计数就是包含特定项集（｛牛奶，黄油｝）的事务个数

支持度

支持度与总事务数的比值，比如｛牛奶，黄油｝的支持度就是2/5

频繁项集

也就是要判断某个项集是否频繁，这里引出了最小支持度阈值的概念，就是设定一个支持度的值，大于这个值的项集就是频繁项集

关联规则

关联规则是形如 X－>Y的表达式, 其中 X 和 Y 是不相交的项集

比如｛牛奶，尿布｝－> ｛黄油｝

关联规则的强度

X－>Y的支持度：确定项集的频繁程度，也就是｛X，Y｝的支持度，即X，Y一起出现的概率P(XY),这里使用频率代替概率

X－>Y的置信度：确定在X发生的条件下Y一定会发生的概率，举个栗子：牛奶－>黄油，就是买了牛奶还会买黄油的概率P(Y|X)=P(XY)/P(X)＝2/4=50%，这个概率和黄油－>牛奶的概率是不同的，也就是 X－>Y不满足交换律

只有频繁的项集才能产生强的关联规则

只有从频繁项集中挖出来的规则才是强规则，因为频繁项集中的项集出现的频率高，挖掘出规则的置信度就会高。