《机器学习实战》(附源代码!)

《机器学习实战》笔记(十一):Ch11 - 使用Apripri算

2018-05-23  本文已影响109人  Lornatang

第11章 使用Apriori算法进行关联分析(代码)

交易号码 商品
0 豆奶草莓
1 草莓,尿布,啤酒,辣椒酱
2 豆奶,尿布,黄瓜,饼干
3 黄瓜,饼干,尿布,啤酒
4 黄瓜,啤酒,尿布,黄瓜

频繁项集指的就是那些经常一起出现的物品集合,比如{啤酒,尿布,饼干}就是频繁项集中的一个例子,而根据上表也可以找到尿布->啤酒这样的关联规则。而我们是要通过关联分析大规模数据从而发现数据之间存在的有趣关系,那么问题来了,什么样的关系是有趣的呢?而这个有趣又是怎么定义的呢?我们可以通过支持度(support)和可信度(置信度confidence)来定义。一个项集的支持度指的是数据集中包含该项集记录所占的比例,上例中{豆奶}的支持度是2/5,{啤酒,尿布}的支持度是3/5;可信度是针对于像{尿布}->{啤酒}这样的关联规则来定义的,定义为:支持度({尿布,葡萄酒})/支持度(尿布).


代码托管见Github

上一篇 下一篇

猜你喜欢

热点阅读