RecSys行为序列建模-DIN系列

本文介绍DIN、DIEN和SIM三种深度学习推荐系统模型。DIN通过注意力机制增强用户行为向量化;DIEN利用GRU捕捉用户兴趣演变,并通过辅助损失优化训练;SIM通过两级搜索策略高效处理长期用户行为数据。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

《Deep Interest Network for Click-Through Rate Prediction》基于全部用户历史行为建模

1 DIN

1.1 特征处理

将稀疏特征特征分为四类
在这里插入图片描述
对于向量中任意位置 j 为 1,取对应编码矩阵的 j-th向量,multi-hot则取出一个向量集合

1.2 Base模型

在这里插入图片描述
不论什么ad,对于用户所有行为sum pooling得到同样的用户行为向量,因此有限维度的行为表示将限制表达用户离散兴趣的能力,而扩展维度将导致复杂度的增加和过拟合的风险。

1.3 DIN

在这里插入图片描述
对于每个candidate ad 通过activation unit类似于attention机制,获得一个基于用户历史行为的向量表示:
在这里插入图片描述
但并未对求出的各历史行为的权重进行归一化,以期反应用户兴趣的强烈程度。

1.4 优化

1.4.1 MBA Reg - Mini-batch Aware Regularization

不加正则化很容易过拟合,但由于输入是高维稀疏特征,一般的正则化代价太大。用户数据谷和长尾定律:很多f eature id 仅出现几次,高频只占很小部分,这在训练时增加了很多噪声,加重过拟合。

因此,对于 feature id,基于其出现频率调整其正则化强度:高频正则化强度较小,低频正则化强度较大:
在这里插入图片描述
n j n_j nj 即为 feature id 在整个样本中出现的总频数。出发点类似于出现频率高的商品更符合大众兴趣,并非千人千面的推荐。

1.4.2 Dice - Data Adaptive Activation Function

激活函数 PReLU:
在这里插入图片描述
p ( s ) p(s) p(s) 类似 bool 值,指示 s 与 0 的大小。无论何种样本数据分布形式,整流点均为 0。因此,在PReLU的基础上进行数据自适应改进:
在这里插入图片描述
1.先对 s 进行均值归一化处理,整流点从 0 变为 E [ s ] E[s] E[s]
2.经过 sigmod 计算,获得0~1间的概率值 p ( s ) p(s) p(s)
均值和方差均为0时,退化为PReLU

1.5 评估指标

在AUC指标的基础上进行改进:计算单个用户AUC,根据点击次数火展示次数进行加权平均,消除用户偏差对模型的影响。
在这里插入图片描述

2 DIEN

论文链接:Deep Interest Evolution Network for Click-Through Rate Prediction
在这里插入图片描述
对比DIN,DIEN改进点:

  1. 通过GRU建模用户历史行为序列中潜在兴趣,并通过引入辅助Loss,降低GRU序列学习中反向传播的难度,辅助隐层状态学习
  2. 基于Attention机制的AUGRU刻画序列中兴趣演化

2.1 Interest Extractor Layer

图中黄色模块为用户兴趣抽取层,借助GRU读取用户行为序列进行抽取。同时为了让模型更好的学习历史状态,引入辅助Loss:对每一个timestep t + 1,取当前t + 1真实点击item为正样本,负采样得到负样本,结合上一步的隐层状态 h t h_t ht,计算pairloss
在这里插入图片描述
每一步都计算是因为:用户兴趣不断变化,最后一个行为与中间兴趣可能毫不相关,仅预估最后一步不合理。同时每一步都训练可以降低GRU序列学习中反向传播的难度,辅助隐层状态学习

2.2 Interest Evolving Layer

随着时间推进和用户交互,兴趣会逐渐发生变化。在已抽取到的兴趣序列的基础上,学习兴趣演化过程(红色模块)。

  1. 结合目标item e a e_a ea和兴趣序列 h t h_t ht,计算权重 a t a_t at
    在这里插入图片描述
  2. 使用 a t a_t at影响GRU的原始更新门 u t ′ u_t' ut u t ′ u_t' ut刻画各维度的效果, a t a_t at刻画当前隐层兴趣对兴趣演化的整体影响
    在这里插入图片描述

3 SIM

论文链接:Search-based User Interest Modeling with Lifelong Sequential Behavior Data for Click-Through Rate Prediction
在这里插入图片描述
长期的用户行为数据是有价值的,但当前模型受限计算成本,infer耗时等各种原因,只能处理较短行为序列。而SIM主要贡献提出了一种可建模长序列用户行为数据的范式。采用级联两级搜索策略,由两个相应的单元组成:通用搜索单元(GSU)和精确搜索单元(ESU)。ESU可以是DIN、DIEN等兴趣抽取模型,但注意因为是建模的长期行为序列,所以额外添加了时间emb。
重点在于GSU:从长行为序列中找出有助于用户兴趣建模的相关用户行为子序列。
在这里插入图片描述

  1. Hard-search。通过目标item的品类,找到对应行为序列中同品类的行为item
  2. Soft-search。对item进行emb,完成最大内积搜索。但在soft-search中,仅重视短期兴趣可能会存在误导,因此该模型的参数在基于长期行为数据的辅助CTR预测任务下进行训练。当用户行为序列长到一定程度无法全部加入模型时,采样子序列(先后顺序关系不变)
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值