import pandas as pd from apyori import apriori import pyfpgrowth def loadData(): # 加载数据 data = pd.read_excel(';C:\;\;Users\;\;Administrator.DESKTOP-RESM0T3\;\;Downloads\;\;超市销售关联.xlsx';) # encoding=';utf-8'; inputList = data.values.tolist() # 将表格中的 T 和 F 转换为商品名称，A——F为商品编号 header = [';A';, ';B';, ';C';, ';D';, ';E';, ';F';, ';G';, ';H';, ';I';, ';J';, ';K';] itemList = [] for item in inputList: cur = [] for i in range(len(item)): if item[i] == ';T';: cur.append(header[i]) itemList.append(cur) return itemList def fpgrowth_method(data, min_support, min_confidence): # 频繁项集 patterns = pyfpgrowth.find_frequent_patterns(data, min_support) # 规则 rules = pyfpgrowth.generate_association_rules(patterns, min_confidence) for i in rules: print(";%s -> %s 置信度 %f"; % (i, rules[i][0], rules[i][1])) if __name__ == ";__main__";: data = loadData() min_support = 3 # 最小支持度 min_confidence = 0.5 # 最小置信度 min_lift = 0.0 # 最小提升度 max_length = 10 # 最长关系长度 print(';得到的频繁模式：';) print(';FP-growth得到的关联规则';) fpgrowth_method(data, min_support, min_confidence) 运行后频繁模式是空的

对movielens数据集采用关联规则进行分析，对打分rate大于等于3的用户-项目对进行过滤，支持度为0.3，置信度为0.7. 完成下面的程序填空： import pandas as pd def load_data_set(): #载入数据 # 数据集 data_path = "datafile/ml-100k/u.data" #修改为自己数据的目录 df = pd.read_csv(data_path, header=None, sep=" ") df.columns = ["user", "movie", "rate", "time"] dataset = dict() # 整理数据，将mvlen数据整理成字典，字典的键是用户名，值的该用户评价超过3的电影集合 for i in range(0, df.shape[0]): if df.loc[i, "user"] ___________ dataset: #第1空 dataset[df.loc[i, "user"]] = set() if df.loc[i, "rate"] >= 3: dataset[df.loc[i, "user"]].add(df.loc[i, "movie"]) data_set=[] for i,j in ___________ : #第2空遍历一个字典类型的dataset，以获取其所有的键值对 data_set.append(j) return data_set def create_C1(data_set): #频繁一项集创建 C1 = set() for t in data_set: for item in t: item_set = frozenset([item]) C1.add(item_set) return C1 def is_apriori(Ck_item, Lksub1): for item in Ck_item: sub_Ck = Ck_item - frozenset([item]) if sub_Ck not in Lksub1: return False return True def create_Ck(Lksub1, k): #频繁k项集创建 Ck = set() len_Lksub1 = len(Lksub1) list_Lksub1 = list(Lksub1) for i in range(len_Lksub1): for j in range(1, len_Lksub1): l1 = list(list_Lksub1[i]) l2 = list(list_Lksub1[j]) l1.sort() l2.sort() if l1[0:k-2] == l2[0:k-2]: Ck_item =______________________ #第3空，合并两个频繁项集 # pruning if is_apriori(Ck_item, Lksub1): Ck.add(Ck_item) return Ck def generate_Lk_by_Ck(data_set, Ck, min_support, support_data): Lk = set() item_count = {} for t in data_set: for item in Ck: if item.issubset(t): if item not in item_count: item_count[item] = 1 else: item_count[item] += 1 t_num = float(len(data_set)) for item in item_count: if (________________) >= min_support: #第4空，将该候选项的计数除以交易总数 Lk.add(item) support_data[item] = item_count[item] / t_num return Lk def generate_L(data_set, k, min_support): support_data = {} C1 = create_C1(data_set) L1 = generate_Lk_by_Ck(data_set, C1, min_support, support_data) Lksub1 = L1.copy() L = [] L.append(Lksub1) for i in range(2, k+1): Ci = create_Ck(Lksub1, i) Li = generate_Lk_by_Ck(data_set, Ci, min_support, support_data) Lksub1 = Li.copy() L.append(Lksub1) return L, support_data def generate_big_rules(L, support_data, min_conf): big_rule_list = [] sub_set_list = [] for i in range(0, len(L)): for freq_set in L[i]: for sub_set in sub_set_list: if sub_set.issubset(freq_set): conf = support_data[freq_set] / support_data[freq_set - sub_set] big_rule = (freq_set - sub_set, sub_set, conf) if conf >= min_conf and big_rule not in big_rule_list: # print freq_set-sub_set, " => ", sub_set, "conf: ", conf big_rule_list.append(big_rule) sub_set_list.append(freq_set) return big_rule_list #主函数 if name == "main": #把movielens数据集转换成以用户为单位进行组织的数据集 data_set = load_data_set() #得到各种物品组合的支持度 L, support_data = generate_L(data_set, k=3, min_support=0.3) #得到关联规则 big_rules_list = generate_big_rules(L, support_data, min_conf=0.7) 第1空第2空第3空第4空 2. (填空题) 对172有过评分的用户，同时对{50, 181}评分的概率是(小数点后保留4位)？第1空 3. (填空题) 用户对174商品评分过，对该用户进行TOP-4推荐的列表为？（只考虑一项集，按照顺序从高到低排序，中间用英文逗号分隔）第1空 4. (填空题) 同时对（1，50）商品评分的用户，可能推荐的商品id是？置信度为(小数点后保留4位)？（中间用英文逗号分隔）第1空

本段代码利用了经典的关联规则学习方法——Apriori 算法，针对 MovieLens 数据集中用户和项目的交互记录进行了分析。通过对评分大于等于 3 的过滤条件设定以及特定支持度和置信度阈值的选择，最终能够发现隐藏在数据...

import pandas as pd def loadData(): # 加载数据 data = pd.read_excel(';D:\;\;超市销售关联.xlsx';) # , encoding=';utf-8'; inputList = data.values.tolist() # 将表格中的 T 和 F 转换为商品名称，A——F为商品编号 header = [';A';, ';B';, ';C';, ';D';, ';E';, ';F';, ';G';, ';H';, ';I';, ';J';, ';K';] itemList = [] for item in inputList: cur = [] for i in range(len(item)): if item[i] == ';T';: cur.append(header[i]) itemList.append(cur) return itemList # 生成频繁一项集 def create_C1(data_set): C1 = set() for t in data_set: for item in t: item_set = frozenset([item]) C1.add(item_set) return C1 # 判断是否满足apriori基本性质 def is_apriori(Ck_item, Lksub1): ";";"; 判断频繁候选k项集是否满足Apriori性质输入: Ck_item: Ck中包含所有频繁项的候选k-项集 Lksub1: Lk-1, 一个包含所有频繁候选（k-1）-项集的集合输出: True: 满足 False: 不满足 ";";"; for item in Ck_item: sub_Ck = Ck_item - frozenset([item]) if sub_Ck not in Lksub1: return False return True def create_Ck(Lksub1, k): ";";"; 创建Ck，包含所有频繁候选k项集 by Lk-1';s own connection operation. 输入: Lksub1: Lk-1, 包含所有频繁候选（k-1）项集 k: 频繁项集项目编号输出: Ck: 所有频繁候选k项集 ";";"; Ck = set() len_Lksub1 = len(Lksub1) list_Lksub1 = list(Lksub1) for i in range(len_Lksub1): for j in rangeƑ, len_Lksub1): l1 = list(list_Lksub1[i]) l2 = list(list_Lksub1[j]) l1.sort() l2.sort() if l1[0:k - 2] == l2[0:k - 2]: Ck_item = list_Lksub1[i] | list_Lksub1[j] # pruning if is_apriori(Ck_item, Lksub1): Ck.add(Ck_item) return Ck def generate_Lk_by_Ck(data_set, Ck, min_support, support_data): ";";"; 从Ck中删除不频繁的生成Lk. 输入: data_set: 交易数据库 Ck: 候选k项集 min_support: 最小支持度 support_data: 频繁项集+支持度组成数据字典输出: Lk: 所有频繁项集. ";";"; Lk = set() item_count = {} for t in data_set: for item in Ck: if item.issubset(t): if item not in item_count: item_count[item] = 1 else: item_count[item] += 1 t_num = float(len(data_set)) for item in item_count: if (item_count[item] / t_num) >= min_support: Lk.add(item) support_data[item] = item_count[item] / t_num return Lk

首先，我看到用户导入了pandas，并在loadData函数中读取Excel文件。路径里的分号看起来有问题，应该是正常的引号。比如，'D:\\超市销售关联.xlsx'，而用户写成了';D:\;\;超市销售关联.xlsx';，这里的分号可能是输入...

相关推荐

Python Excel数据分析：数据挖掘与知识发现，从数据中提取宝藏

大数据分析：处理和分析海量数据，掌握数据的真正力量

【MVS_WIN_STD_3.3.1日志分析】：日志信息挖掘专家，让问题无所遁形

数据挖掘入门指南：第一步开启数据宝藏

数据挖掘中的关联规则：Apriori、FP-Growth及其优化（如何高效挖掘关联规则）

【SODP数据分析实战】：如何利用软件进行数据解读

数据管理攻略：基恩士扫码枪数据输出与处理的高效方法

大数据分析的利器：M_map应用案例深度剖析

【数据挖掘与ASC文件应用】：案例分析，探索数据背后的价值

【Python与数据库交互】：构建cnvd漏洞信息数据分析平台的步骤

【大数据中的知识价值】：如何通过KDN挖掘数据的深层含义

GAMIT项目实战：如何处理复杂的数据集（案例分析与实操指导）

【Python机器学习项目实战】：全流程解析从数据分析到模型部署

apriori算法Python实现

apriori算法python实现

用python实现apriori算法

netty-all-4.1.23.Final.jar中文文档.zip

OKT507_修改默认界面显示_Linux_应用笔记_V1.0_20220627.pdf

大家在看

C语言流程图生成工具

GPRS网络信令实例详解

The GNU Toolchain for ARM targets HOWTO.pdf

高频双调谐谐振放大电路设计3MHz+电压200倍放大.zip

中国地级市地图shp

最新推荐

netty-all-4.1.23.Final.jar中文文档.zip

OKT507_修改默认界面显示_Linux_应用笔记_V1.0_20220627.pdf

Linux_G2D_开发指南.pdf

天气系统插件，所见即所得

这是一个用Python开发的桌面版的跆拳道馆管理系统.zip

实现Struts2+IBatis+Spring集成的快速教程

【数据融合技术】：甘肃土壤类型空间分析中的专业性应用

Waymo使用稀疏图卷积处理LiDAR点云，目标检测精度提升15%

Dwr实现无刷新分页功能的代码与数据库实例

【空间分布规律】：甘肃土壤类型与农业生产的关联性研究