10、频繁项集挖掘:从数据流中发现隐藏的宝藏

频繁项集挖掘:从数据流中发现隐藏的宝藏

1. 引言

在数据流中挖掘频繁项集是一项重要任务,它帮助我们理解数据中的模式和关联规则。频繁项集指的是在数据集中频繁共同出现的项的集合。这种技术广泛应用于网络流量监控、日志分析、市场篮子分析等领域。通过频繁项集挖掘,我们可以发现数据中的潜在模式,从而做出更明智的决策。

2. 频繁项集的定义

频繁项集挖掘的目标是从数据流中识别出所有支持度超过用户指定阈值的项集。设 ( I ) 表示所有项目的全集。考虑一个事务流,其中每个事务是 ( I ) 的一个子集。如果 ( X \subseteq I ) 是至少 ( sN ) 个事务的子集,其中 ( N ) 表示流的长度,即迄今为止已看到的事务数,则称项集 ( X \subseteq I ) 具有支持度 ( s )。

2.1 支持度和置信度

  • 支持度 :项集 ( X ) 出现的频率,即包含 ( X ) 的事务数与总事务数的比例。
  • 置信度 :在项集 ( X ) 出现的情况下,项集 ( Y ) 也出现的概率。
术语 定义
支持度 ( s ) ( X ) 出现的频率,即包含 ( X ) 的事务数与总事务数的比例
置信度 ( c )
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值