数据挖掘算法之关联规则挖掘

2017-09-22  本文已影响0人  呼啦啦葱

关联规则挖掘的概念

在事务,关系数据库中的项集和对象中发现频繁模式,关联规则,相关性或者因果结构。

频繁模式:频繁出现的项集

通俗一点讲就是从一堆经常发生在一起的事情中,找出他们之间的关联性。

举个啤酒和尿布的例子,商场统计发现啤酒和尿布频繁出现在同一张订单中,我们就可以挖掘出啤酒和尿布之间的关联关系。比如买啤酒的人很大概率会买尿布,或者买尿布的人很大的概率会买啤酒。

频繁项集的相关概念

项集

包含0个或多个项的集合,比如{牛奶,面包,尿布}

k-项集:集合中项数目为k的项集,{牛奶,面包,尿布}这就是一个三项集

支持度计数

比如现在有一些事务集合

编号                   事务

1                      面包,牛奶

2                      面包,尿布,黄油,鸡蛋

3                      牛奶,尿布,黄油,可乐

4                      面包,牛奶,尿布,黄油

5                      面包,牛奶,尿布,可乐

{牛奶,黄油}的支持度计数就是2,因为{牛奶,黄油}在编号3,4的事务中出现,计数次数就是2

所以支持度计数就是包含特定项集({牛奶,黄油})的事务个数

支持度

支持度与总事务数的比值,比如{牛奶,黄油}的支持度就是2/5

频繁项集

也就是要判断某个项集是否频繁,这里引出了最小支持度阈值的概念,就是设定一个支持度的值,大于这个值的项集就是频繁项集

关联规则的相关概念

关联规则

关联规则是形如 X->Y的表达式, 其中 X 和 Y 是不相交的项集

比如{牛奶,尿布}-> {黄油}

关联规则的强度

X->Y的支持度:确定项集的频繁程度,也就是{X,Y}的支持度,即X,Y一起出现的概率P(XY),这里使用频率代替概率

X->Y的置信度:确定在X发生的条件下Y一定会发生的概率,举个栗子:牛奶->黄油,就是买了牛奶还会买黄油的概率P(Y|X)=P(XY)/P(X)=2/4=50%,这个概率和 黄油->牛奶的概率是不同的,也就是 X->Y不满足交换律

关联挖掘规则的一般步骤

1.先从给出的事务集合中找出频繁项集

只有频繁的项集才能产生强的关联规则

2.从频繁项集中挖掘出项与项之间的规则

只有从频繁项集中挖出来的规则才是强规则,因为频繁项集中的项集出现的频率高,挖掘出规则的置信度就会高。

上一篇 下一篇

猜你喜欢

热点阅读