【数据挖掘】频繁项集挖掘方法中Apriori、FP-Growth算法详解（图文解释超详细）

最新推荐文章于 2024-10-10 17:56:36 发布

showswoller

最新推荐文章于 2024-10-10 17:56:36 发布

阅读量5.1k

点赞数 14

CC 4.0 BY-SA版权

分类专栏：数据挖掘文章标签：数据挖掘人工智能算法关联规则数据分析

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jiebaoshayebuhui/article/details/128592782

发现频繁项集是挖掘关联规则的基础。Apriori算法通过限制候选产生发现频繁项集，FP-growth算法发现频繁模式而不产生候选

1：Apriori算法

Apriori算法是Agrawal和Srikant于1994年提出，是布尔关联规则挖掘频繁项集的原创性算法，通过限制候选产生发现频繁项集。Apriori算法使用一种称为逐层搜索的迭代方法，其中k项集用于探索（k+1）项集。具体过程描述如下：首先扫描数据库，累计每个项的计数，并收集满足最小支持度的项找出频繁1项集记为L1。然后使用L1找出频繁2项集的集合L2，使用L2找出L3，迭代直到无法再找到频繁k项集为止。找出每个Lk需要一次完整的数据库扫描

Apriori算法使用一种称为先验性质的特性进行搜索空间的压缩，即频繁项集的所有非空子集也一定是频繁的

Apriori算法产生k项频繁集的过程主要包括连接和剪枝两步

（2）剪枝

Ck是Lk的超集，Ck的成员不一定全部是频繁的，但所有频繁的k项集都包含在Ck中。为了减少计算量，可以使用Apriori性质，即如果一个k项集的（k-1）子集不在Lk-1中，则该候选不可能是频繁的，可以直接从Ck删除。这种子集测试可以使用所有频繁项集的散列树快速完成

下面是产生关联规则实例数据集如

最低0.47元/天解锁文章

200万优质内容无限畅学

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

showswoller 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。