频繁项集和关联规则

2018-12-02  本文已影响63人  georgeguo

0 频繁项集与关联规则的关系

关联规则的发现的前提是先构建好关联规则。Apriori原理,如果某元素是不频繁的,那么包含该元素的超集也是不频繁的,所以就不需要考虑这些超集。

1 apriori算法

apriori算法一张图

apriori算法图解

apyori中apriori的参数总结

apriori算法的缺点

2 FP-growth算法

FP-growth简介

FP-growth的来源《Mining Frequent Patterns without Candidate Generation: A Frequent-Pattern Tree Approach, 2004》。FP-growth是基于Aprioir构建,只是在完成相同任务的时候,使用了不同的技术。通过将数据集存储在FP-Tree,然后在FP-Tree上发现频繁项集或频繁项对。

FP-growth发现频繁项集的过程

如何获取条件模式基?
条件模式基(conditional pattern base):以所查找元素项为结尾的路径集合。首先从获取的头指针表中的单个频繁元素项开始,对每个元素项获取其对应的条件模式基。每一条路径其实都是一条前缀路径,前缀路径就是介于所查找元素项与根节点之间的内容。每条前缀路径都与一个计数关联,该计数就起始元素的个数。前缀路径将被用于构建条件FP-Tree

如何创建条件FP-Tree?
和创建FP-Tree的逻辑是一样的,只是输入不一样。

FP-Tree,用于编码数据集的有效方式

FP-growth算法的优缺点

优点

缺点

参考

上一篇 下一篇

猜你喜欢

热点阅读