推荐系统-多路召回

本文介绍了推荐系统中多路召回的概念,通过定义不同召回字典、评估函数和相似性矩阵来提升候选集的质量。内容包括:1.含义解释;2.多路召回字典的构建;3.召回效果的评估方法;4.相似性计算,如itemcf、usercf和embedding方法;5.列举了如Youtube DNN、协同过滤等召回策略。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

1. 含义

指采用不同的策略、特征或简单模型,分别召回一部分候选集,然后把候选集混合在一起供后续排序模型使用。
示意图:
在这里插入图片描述

2. 定义多路召回字典

# 定义一个多路召回的字典,将各路召回的结果都保存在这个字典当中
user_multi_recall_dict =  {
   
   'itemcf_sim_itemcf_recall': {
   
   },
                           'embedding_sim_item_recall': {
   
   },
                           'youtubednn_recall': {
   
   },
                           'youtubednn_usercf_recall': {
   
   }, 
                           'cold_start_recall': {
   
   }}

3. 召回效果评估函数

# 依次评估召回的前10, 20, 30, 40, 50个文章中的击中率
def metrics_recall(user_recall_items_dict, trn_last_click_df, topk=5):
    last_click_item_dict = dict(zip(trn_last_click_df['user_id'], trn_last_click_df['click_article_id']))
    user_num = len(user_recall_items_dict)
    
    for k in range(10, topk+1, 10):
        hit_num = 0
        for user, item_list in user_recall_items_dict.items():
            # 获取前k个召回的结果
            tmp_recall_items = [x[0] for x in user_recall_items_dict[user][:k]]
            if last_click_item_dict[user] in set(tmp_recall_items):
                hit_num += 1
        
        hit_rate = round(hit_num * 1.0 / user_num, 5)
        print(' topk: ', k, ' : ', 'hit_num: '<
### 推荐系统多路召回商品的融合方法 在推荐系统多路召回阶段,通常会采用多种策略来获取候选商品集合。每种召回策略可能具有不同的特点和覆盖范围,因此如何有效地将这些召回结果进行融合是一个重要的研究方向[^1]。 #### 常见的商品融合算法实现 以下是几种常见的多路召回商品融合方法及其对应的实现: --- ##### 1. **加权平均法** 加权平均是一种简单有效的融合方法,适用于不同召回路径之间存在明显优先级的情况。通过对每条召回路径的结果赋予权重,最终按照综合得分排序选出 Top-K 的商品作为最终推荐列表。 ```python def weighted_average(recall_results, weights): """ 加权平均融合方法 :param recall_results: 各召回路径返回的结果字典 {item_id: score} :param weights: 对应各召回路径的权重列表 :return: 融合后的商品分数字典 """ fused_scores = {} for i, (path_name, path_result) in enumerate(recall_results.items()): weight = weights[i] for item_id, score in path_result.items(): if item_id not in fused_scores: fused_scores[item_id] = 0 fused_scores[item_id] += score * weight return dict(sorted(fused_scores.items(), key=lambda x: x[1], reverse=True)[:top_k]) ``` 这种方法的优点在于易于理解和实现,缺点是对权重的选择较为敏感[^4]。 --- ##### 2. **Rank Fusion 方法** Rank Fusion 是一种基于排名位置的方法,不依赖具体的评分值,而是利用各个召回路径中的商品排名顺序来进行融合。常用的 Rank Fusion 算法包括 RRF(Reciprocal Rank Fusion)等。 ```python def reciprocal_rank_fusion(recall_results, alpha=0.8): """ Reciprocal Rank Fusion 方法 :param recall_results: 各召回路径返回的结果字典 {item_id: rank_position} :param alpha: 控制衰减系数,默认取 0.8 :return: 融合后的商品排名字典 """ fused_ranks = {} for path_name, path_result in recall_results.items(): for item_id, position in path_result.items(): if item_id not in fused_ranks: fused_ranks[item_id] = 0 fused_ranks[item_id] += 1 / (alpha + position) return dict(sorted(fused_ranks.items(), key=lambda x: x[1], reverse=True)[:top_k]) ``` RRF 方法能够有效缓解单一召回路径偏差较大的问题,适合于多个召回路径质量接近的情形[^5]。 --- ##### 3. **学习型融合方法** 当数据量充足时,可以通过机器学习模型自动学习最优的融合方案。例如,可以构建一个分类器或者回归模型,输入特征为来自不同召回路径的商品属性或打分,目标是预测用户是否会点击/购买该商品。 ```python import lightgbm as lgb def train_learning_to_rank_model(features, labels): """ 使用 LightGBM 训练 Learning-to-Rank 模型 :param features: 特征矩阵,包含来自不同召回路径的信息 :param labels: 用户行为标签(如点击、未点击) :return: 训练好的 LTR 模型 """ dataset = lgb.Dataset(features, label=labels) params = { 'objective': 'lambdarank', 'metric': 'ndcg' } model = lgb.train(params, dataset) return model def predict_with_ltr(model, test_features): """ 利用训练好的 LTR 模型进行预测 :param model: 已经训练好的 LTR 模型 :param test_features: 测试集特征 :return: 预测得分 """ scores = model.predict(test_features) return dict(zip(item_ids, scores)) ``` 这种基于学习的方式灵活性更高,但也需要更多的标注数据支持以及复杂的调参过程[^3]。 --- ##### 4. **混合嵌套式融合** 某些情况下,可以直接设计多层次结构完成融合操作。比如先按类别划分再分别处理内部子集;又或者是把部分高置信度来源单独拎出来优先进入后续流程等等。 ```plaintext # 此处省略伪代码表示复杂逻辑控制流... if category_based_filtering_enabled: group_by_category() else: apply_global_weighted_summarization() ``` 这种方式往往结合领域知识定制而成,在实际应用中有很强针对性[^2]。 --- ### 总结 综上所述,推荐系统多路召回商品的融合可以从简单的线性组合到复杂的机器学习建模等多个层面展开探索。具体选择哪种技术路线取决于项目背景下的资源条件与性能需求等因素约束。
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值