说明:文章为《数据挖掘:概念与技术 原书第03版》的学习笔记,该书是数据挖掘领域的经典之作,想了解更多内容请参阅原著。
一、频繁模式基本概念
模式:通常指的是数据中的一种规律、趋势或特征,可以是单一的特征、属性,也可以是多个特征之间的关系或组合;
频繁模式:频繁地出现在数据集中的模式。
1.1、购物篮分析:一个诱发例子
频繁项集挖掘的一个典型例子是购物篮分析。该过程通过发现顾客放入他们“购物篮” 中的商品之间的关联,分析顾客的购物习惯(见图)。这种关联的发现可以帮助零售商 了解哪些离品频繁地被顾客同时购买,从而帮助他们制定更好的营销策略。例如,如果顾客 在一次超市购物时购买了牛奶,他们有多大可能也同时购买面包(以及何种面包)?这种信息可以帮助零售商做选择性销售和安排货架空间,导致增加销售量。
1.2、频繁项集、闭项集和关联规则
在学习频繁项集挖掘之前,需要了解以下概念:
-
项的集合:牛奶、面包等超市所有商品的集合;
-
事务:购物篮分析中的每一笔订单:非空集合,每一个事务都有一个标识符;
-
项集:商品的集合,项集的项可以是1个也可以是多个;包含1个项就是1项集,包含k个项就是k项集;
-
关联规则:项集A(前置项) => 项集B(后置项);
-
支持度:同时包含项集A,B的事务 / 总事务;
-
置信度:包含A的事务同时也包含B的事务的百分比,可以理解为顾客选择A的情况下选择B的概率;
-
强规则:同时满足最小支持度阅值(min_sup)和最小置信度阈值(min con)的规则称为强规则;
-
相对支持度:P(A U B) 概率;
-
绝对支持度:项集的频度、支持度计数或计数。计数
-
频繁项集:相对支持度满足预定义的最小支持度阈值;
-
闭频繁项集:假设项集X在数据集D中,如果不存在真超项集Y使得Y与X在D中具有相同的支持度计数,则项集X是闭项集,如果项集X又是频繁的,则项集X为闭频繁项集;
-
极大频繁项集:假设项集X在数据集D中,且X是频繁的,没有其他频繁项集是X的真超集&#x