Apriori--Fast Algorithms for Min
2017-11-02 本文已影响0人
果冻贱客
一、基本概念
1.项:数据库中不可分割的最小信息单位,用符号i表示,具有原子性。如{啤酒,尿布}。
2.项集:项的集合,含k个项的集合称为k-项集。
3.事务:由数据库中多个项构成的集合。如顾客在商场里同一次购买多种商品,这些购物信息在数据库中有一个唯一的标识,用以表示这是同一个顾客购买的,称该用户的本次购物活动对应一个数据库事务。
4.关联规则【association rule】:
关联规则是形如X=>Y的的蕴涵式,反映X中的项出现时,Y中的项跟着出现的概率。
5.支持度:反映X和Y中所含的项同时在一个事务中出现的概率
6.置信度:反映包含X的事务中出现Y的条件概率
7.最小支持度【minimum support】与最小置信度【minimum confidence】:前者反映关联规则的最低重要程度,后者规定关联规则必须满足的最低可靠性。
8.频繁项集:支持度计数大于等于最小支持度的I的非空子集
二、算法描述
a.连接操作
连接b.剪枝操作
剪枝 举个例子