【理论篇】数据挖掘 第六章 挖掘频繁模式、关联和相关性:基本概念和方法(上)

说明:文章为《数据挖掘:概念与技术 原书第03版》的学习笔记,该书是数据挖掘领域的经典之作,想了解更多内容请参阅原著。

一、频繁模式基本概念

        模式:通常指的是数据中的一种规律、趋势或特征,可以是单一的特征、属性,也可以是多个特征之间的关系或组合;

        频繁模式:频繁地出现在数据集中的模式。

1.1、购物篮分析:一个诱发例子

        频繁项集挖掘的一个典型例子是购物篮分析。该过程通过发现顾客放入他们“购物篮” 中的商品之间的关联,分析顾客的购物习惯(见图)。这种关联的发现可以帮助零售商 了解哪些离品频繁地被顾客同时购买,从而帮助他们制定更好的营销策略。例如,如果顾客 在一次超市购物时购买了牛奶,他们有多大可能也同时购买面包(以及何种面包)?这种信息可以帮助零售商做选择性销售和安排货架空间,导致增加销售量。

1.2、频繁项集、闭项集和关联规则

在学习频繁项集挖掘之前,需要了解以下概念:

  • 项的集合:牛奶、面包等超市所有商品的集合;

  • 事务:购物篮分析中的每一笔订单:非空集合,每一个事务都有一个标识符;

  • 项集:商品的集合,项集的项可以是1个也可以是多个;包含1个项就是1项集,包含k个项就是k项集;

  • 关联规则:项集A(前置项) => 项集B(后置项);

  • 支持度:同时包含项集A,B的事务 / 总事务;

  • 置信度:包含A的事务同时也包含B的事务的百分比,可以理解为顾客选择A的情况下选择B的概率;

  • 强规则:同时满足最小支持度阅值(min_sup)和最小置信度阈值(min con)的规则称为强规则;

  • 相对支持度:P(A U B) 概率;

  • 绝对支持度:项集的频度、支持度计数或计数。计数

  • 频繁项集:相对支持度满足预定义的最小支持度阈值;

  • 闭频繁项集:假设项集X在数据集D中,如果不存在真超项集Y使得Y与X在D中具有相同的支持度计数,则项集X是闭项集,如果项集X又是频繁的,则项集X为闭频繁项集;

  • 极大频繁项集:假设项集X在数据集D中,且X是频繁的,没有其他频繁项集是X的真超集&#x

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值