模式挖掘(一):频繁项集挖掘算法Apriori和FP Tree

2020-09-30  本文已影响0人  诸葛村花_

一. Apriori算法

Apriori是最常用的频繁项集挖掘算法,其计算逻辑简单易于直观理解。在实际应用中举例,其易于从大量订单数据中获取频繁出现的组合项集,以便于输出计算单元之间的关联度,从而给组套销售、上架摆放等提供建议。下面介绍下工作中总结的知识,和需要避开的问题。

1.1 评估频繁项集的标准

以订单数据为例。在大量的订单中,如何评价某一商品组合对的出现频繁?其组合出现的次数多于其它组合吗。若订单覆盖的商品品类丰富,那么需求量不高的品类的组合便会被淹没在快消品的组合里。所以在Apriori中有从三个不同的角度评价频繁项集,描述元素关联关系的指标:支持度、置信度、提升度。

1.2 Apriori频繁项集评估指标

在Apriori中有三个维度的频繁项集的指标:支持度置信度提升度。下面以二元的组合举例说明。
支持度:

置信度:

提升度:

2. 注意事项

3. 拓展知识点:

上一篇下一篇

猜你喜欢

热点阅读