数据挖掘的算法

Apriori--Fast Algorithms for Min

2017-11-02  本文已影响0人  果冻贱客

一、基本概念

1.项:数据库中不可分割的最小信息单位,用符号i表示,具有原子性。如{啤酒,尿布}。

2.项集:项的集合,含k个项的集合称为k-项集。

3.事务:由数据库中多个项构成的集合。如顾客在商场里同一次购买多种商品,这些购物信息在数据库中有一个唯一的标识,用以表示这是同一个顾客购买的,称该用户的本次购物活动对应一个数据库事务。

4.关联规则【association rule】:


关联规则是形如X=>Y的的蕴涵式,反映X中的项出现时,Y中的项跟着出现的概率。

5.支持度:反映X和Y中所含的项同时在一个事务中出现的概率

6.置信度:反映包含X的事务中出现Y的条件概率

7.最小支持度【minimum support】与最小置信度【minimum confidence】:前者反映关联规则的最低重要程度,后者规定关联规则必须满足的最低可靠性。

8.频繁项集:支持度计数大于等于最小支持度的I的非空子集

二、算法描述


算法描述

a.连接操作

连接

b.剪枝操作

剪枝 举个例子
上一篇下一篇

猜你喜欢

热点阅读