Apriori算法:关联规则挖掘的经典算法
作者:禅与计算机程序设计艺术
1. 背景介绍
关联规则挖掘是数据挖掘中的一个重要分支,它旨在从大量的事务数据中发现有价值的关联模式。其中Apriori算法是关联规则挖掘中最经典和最为人所知的算法之一。该算法由Agrawal和Srikant在1994年提出,至今已有25年的历史,但它依然是关联规则挖掘领域最为广泛使用的算法。
Apriori算法的核心思想是利用先验知识(Apriori)对候选项集进行递归生成和剪枝,最终找出满足最小支持度和置信度阈值的关联规则。该算法以其简单高效的特点,广泛应用于零售、金融、医疗等诸多领域的关联分析、商品推荐、异常检测等场景。
2. 核心概念与联系
Apriori算法涉及到以下几个核心概念:
2.1 项集(Itemset)
项集是指一个事务中出现的商品集合。比如一个顾客购买了牛奶、面包和鸡蛋,那么{牛奶,面包,鸡蛋}就是一个项集。根据项集中商品的数量,可以将项集分为单项集(只有一个商品)、二项集(两个商品)、三项集(三个商品)等。
2.2 支持度(Support)
支持度是指一个项集在所有事务中出现的频率或概率。比如在10000条交易记录中,{牛奶,面包}出现了2000次,那么它的支持度就是2000/10000=0.2。支持度反映了一个项集的普遍程度或重要性。